Технический отчет BitNet b1.58 2B4TBitNet b1.58 2B4T Technical Report
Мы представляем BitNet b1.58 2B4T — первую открытую, нативную 1-битную крупную языковую модель (LLM) с масштабом в 2 миллиарда параметров. Обученная на корпусе из 4 триллионов токенов, модель была тщательно протестирована на наборах данных, охватывающих понимание языка, математические рассуждения, навыки программирования и способность к диалогу. Наши результаты показывают, что BitNet b1.58 2B4T демонстрирует производительность, сопоставимую с ведущими открытыми полноточными LLM аналогичного размера, при этом предлагая значительные преимущества в вычислительной эффективности, включая существенно уменьшенный объем памяти, энергопотребление и задержку декодирования. Для содействия дальнейшим исследованиям и внедрению, веса модели опубликованы на платформе Hugging Face вместе с открытыми реализациями вывода для архитектур GPU и CPU.