BitNet b1.58 2B4T 技術レポート
BitNet b1.58 2B4T Technical Report
April 16, 2025
著者: Shuming Ma, Hongyu Wang, Shaohan Huang, Xingxing Zhang, Ying Hu, Ting Song, Yan Xia, Furu Wei
cs.AI
要旨
BitNet b1.58 2B4Tを紹介します。これは、20億パラメータ規模で初めてのオープンソース、ネイティブ1ビット大規模言語モデル(LLM)です。4兆トークンのコーパスで学習されたこのモデルは、言語理解、数学的推論、コーディング能力、会話能力をカバーするベンチマークで厳密に評価されています。その結果、BitNet b1.58 2B4Tは、同規模の主要なオープンウェイト・フルプレシジョンLLMと同等の性能を達成しつつ、メモリ使用量、エネルギー消費、デコード遅延を大幅に削減するなど、計算効率において大きな利点を提供することが示されました。さらなる研究と採用を促進するため、モデルの重みはHugging Faceを通じて公開され、GPUおよびCPUアーキテクチャ向けのオープンソース推論実装も提供されています。
English
We introduce BitNet b1.58 2B4T, the first open-source, native 1-bit Large
Language Model (LLM) at the 2-billion parameter scale. Trained on a corpus of 4
trillion tokens, the model has been rigorously evaluated across benchmarks
covering language understanding, mathematical reasoning, coding proficiency,
and conversational ability. Our results demonstrate that BitNet b1.58 2B4T
achieves performance on par with leading open-weight, full-precision LLMs of
similar size, while offering significant advantages in computational
efficiency, including substantially reduced memory footprint, energy
consumption, and decoding latency. To facilitate further research and adoption,
the model weights are released via Hugging Face along with open-source
inference implementations for both GPU and CPU architectures.