BitNet b1.58 2B4T 기술 보고서
BitNet b1.58 2B4T Technical Report
April 16, 2025
저자: Shuming Ma, Hongyu Wang, Shaohan Huang, Xingxing Zhang, Ying Hu, Ting Song, Yan Xia, Furu Wei
cs.AI
초록
우리는 20억 파라미터 규모의 최초의 오픈소스 네이티브 1비트 대형 언어 모델(LLM)인 BitNet b1.58 2B4T를 소개합니다. 이 모델은 4조 토큰의 코퍼스로 학습되었으며, 언어 이해, 수학적 추론, 코딩 능력, 대화 능력을 포괄하는 벤치마크에서 엄격하게 평가되었습니다. 우리의 결과는 BitNet b1.58 2B4T가 유사한 규모의 선도적인 오픈 가중치, 완전 정밀도 LLM과 동등한 성능을 달성하면서도 메모리 사용량, 에너지 소비, 디코딩 지연 시간을 크게 줄이는 등 계산 효율성에서 상당한 이점을 제공함을 보여줍니다. 추가 연구와 도입을 촉진하기 위해, 모델 가중치는 Hugging Face를 통해 공개되었으며, GPU 및 CPU 아키텍처를 위한 오픈소스 추론 구현도 함께 제공됩니다.
English
We introduce BitNet b1.58 2B4T, the first open-source, native 1-bit Large
Language Model (LLM) at the 2-billion parameter scale. Trained on a corpus of 4
trillion tokens, the model has been rigorously evaluated across benchmarks
covering language understanding, mathematical reasoning, coding proficiency,
and conversational ability. Our results demonstrate that BitNet b1.58 2B4T
achieves performance on par with leading open-weight, full-precision LLMs of
similar size, while offering significant advantages in computational
efficiency, including substantially reduced memory footprint, energy
consumption, and decoding latency. To facilitate further research and adoption,
the model weights are released via Hugging Face along with open-source
inference implementations for both GPU and CPU architectures.Summary
AI-Generated Summary