ChatPaper.aiChatPaper

Informe Técnico de BitNet b1.58 2B4T

BitNet b1.58 2B4T Technical Report

April 16, 2025
Autores: Shuming Ma, Hongyu Wang, Shaohan Huang, Xingxing Zhang, Ying Hu, Ting Song, Yan Xia, Furu Wei
cs.AI

Resumen

Presentamos BitNet b1.58 2B4T, el primer modelo de lenguaje grande (LLM) nativo de 1 bit de código abierto a escala de 2 mil millones de parámetros. Entrenado en un corpus de 4 billones de tokens, el modelo ha sido rigurosamente evaluado en benchmarks que cubren comprensión del lenguaje, razonamiento matemático, competencia en programación y habilidad conversacional. Nuestros resultados demuestran que BitNet b1.58 2B4T logra un rendimiento comparable al de los principales LLM de precisión completa y pesos abiertos de tamaño similar, al mismo tiempo que ofrece ventajas significativas en eficiencia computacional, incluyendo una huella de memoria sustancialmente reducida, menor consumo de energía y latencia de decodificación. Para facilitar la investigación y adopción futuras, los pesos del modelo se han publicado a través de Hugging Face junto con implementaciones de inferencia de código abierto para arquitecturas tanto de GPU como de CPU.
English
We introduce BitNet b1.58 2B4T, the first open-source, native 1-bit Large Language Model (LLM) at the 2-billion parameter scale. Trained on a corpus of 4 trillion tokens, the model has been rigorously evaluated across benchmarks covering language understanding, mathematical reasoning, coding proficiency, and conversational ability. Our results demonstrate that BitNet b1.58 2B4T achieves performance on par with leading open-weight, full-precision LLMs of similar size, while offering significant advantages in computational efficiency, including substantially reduced memory footprint, energy consumption, and decoding latency. To facilitate further research and adoption, the model weights are released via Hugging Face along with open-source inference implementations for both GPU and CPU architectures.

Summary

AI-Generated Summary

PDF682April 17, 2025