iPhoneで1.5ビットLLMが動作する理由：Appleの『ハードウェア税』は工学的ではなく、収益的な門である

Sat, 06 Jun 2026 00:00:00 +0000

結論： 重みを1.58ビットまで圧縮した70億パラメータ（7B）のLLMは、わずか1.2GBのRAMに収まる。iPhone 12には4GBのRAMが搭載されている。Appleが主張する「Apple IntelligenceにはA17 Pro以降が必要」という制約は、2026年の工学的視点から見れば、単なる詭弁に過ぎない。

数値的根拠： Microsoft ResearchのBitNet b1.58論文（2024年）によれば、LLaMA規模の性能を維持したままモデルサイズを1/8に削減可能。Recover-LoRA（2026年6月）は、低ランク微調整によって2ビット量子化での精度低下を完全に回復させる。Hybrid Gated Flow（2026年2月）は、真の制約は演算能力ではなく「メモリ壁（Memory Wall）」、すなわちメモリ帯域であると特定した。

Appleの戦略： iPhone 15以前のモデルでApple Intelligenceをブロックし、2.5億人以上のユーザーにアップグレードを強いることで、デバイス上でのSiri体験を独占しようとしている。

現状： ハードウェアの門は、収益のための門である。工学的な準備は整っているが、デプロイするための商業的動機がないだけだ。

30秒でわかる「1.5ビット」LLMとは #

通常、スマートフォンでLLMを動作させる際、ニューラルネットワークの各「重み（weight）」は16ビット（2バイト）の数値で保持される。MetaのLLaMA 2 7Bのような70億パラメータのモデルを16ビット精度で動かそうとすれば、約14GBのメモリを消費する。クラウドAIがクラウドである理由はここにある。単一のモデルに14GBの空きメモリを割り当てられるスマートフォンは存在しないからだ。

量子化（Quantization）は、この重みのビット数を削減する技術である。16ビットから8ビットに下げればメモリは半分（7GB）になり、4ビットならさらに半分（3.5GB）、2ビットなら1.75GBまで削減できる。そして、Microsoft ResearchのBitNet b1.58設計 [_The Era of 1-bit LLMs（1ビットLLMの時代）] はさらに過激だ。すべての重みを「-1、0、+1」の3つの値のいずれかに限定し、1つの重あたり約1.58ビットで表現する。これにより、7Bモデルはわずか1.2GBにまで凝縮される。

この「1.2GB」という数字がすべてを物語っている。2020年発売のiPhone 12には4GBのRAMが搭載されており、iPhone 13、14、15には4〜8GBが搭載されている。これらのデバイスが、1.2GBのモデルを動かすための演算能力に飢えているなどということはあり得ない。メモリは十分であり、演算能力も十分だ。A14からA17にかけてNeural Engineは漸進的に高速化したのであり、この種のワークロードにおいて「カテゴリー的に不可能なことが可能になった」わけではない。

研究が示す事実：1.5ビットはもはや実験ではない #

2026年に発表された3つの論文は、1.5ビットLLMが実用段階に入ったことを証明している。

[Hybrid Gated Flow] （2026年2月）は、エッジデバイスにおけるLLM展開の根本的な制約は、演算能力ではなく、メモリ帯域がボトルネックとなる「メモリ壁（Memory Wall）」にあると明確に述べている。同論文では、選択的な低ランク補正を用いることで、1.58ビットLLMをエッジハードウェアに展開できることを示した。これは実際に動作する。

[Recover-LoRA] （2026年6月）は、極端な圧縮による精度低下という歴史的な懸念を解消した。2ビット量子化後に小規模なLoRA微調整を組み合わせることで、フル精度と同等の精度を回復できることを証明した。フローは単純だ。「任意の7Bモデルを用意 → 2ビットに量子化 → 極小のLoRAアダプタを微調整 → 出荷」。精度問題は解決した。

Device Eligibility on iOSApple - Apple News, Guides & Tutorials

iPhoneで1.5ビットLLMが動作する理由：Appleの『ハードウェア税』は工学的ではなく、収益的な門である

30秒でわかる「1.5ビット」LLMとは #

研究が示す事実：1.5ビットはもはや実験ではない #