ChatPaper.aiChatPaper

Болмо: Байтификация нового поколения языковых моделей

Bolmo: Byteifying the Next Generation of Language Models

December 17, 2025
Авторы: Benjamin Minixhofer, Tyler Murray, Tomasz Limisiewicz, Anna Korhonen, Luke Zettlemoyer, Noah A. Smith, Edoardo M. Ponti, Luca Soldaini, Valentin Hofmann
cs.AI

Аннотация

Мы представляем Bolmo — первое семейство конкурентоспособных полностью открытых языковых моделей на уровне байтов с масштабами 1 и 7 миллиардов параметров. В отличие от предыдущих исследований байтовых моделей, которые в основном фокусировались на обучении с нуля, мы обучаем Bolmo путём байтификации существующих языковых моделей на уровне субслов. Байтификация позволяет преодолеть ограничения субсловной токенизации — такие как недостаточное понимание символов и ограничения эффективности из-за фиксированного словаря субслов — при сохранении производительности на уровне ведущих субсловных моделей. Bolmo специально разработана для байтификации: наша архитектура устраняет несоответствие между выразительностью предыдущих байтовых архитектур и субсловных моделей, что позволяет использовать эффективную задачу точного дистилляции между Bolmo и исходной субсловной моделью. Это даёт возможность преобразовать субсловную модель в байтовую, затратив менее 1% типичного бюджета токенов предобучения. Bolmo существенно превосходит все предыдущие байтовые модели сравнимого размера и превосходит исходные субсловные модели в понимании символов, а в некоторых случаях — в программировании, при этом приближаясь к производительности исходных моделей на других задачах. Кроме того, мы показываем, что Bolmo может достигать конкурентоспособной с субсловными моделями скорости вывода за счёт обучения с более высокими коэффициентами сжатия токенов, а также может быть дёшево и эффективно дообучена с использованием существующей экосистемы вокруг исходной субсловной модели. Наши результаты наконец делают байтовые языковые модели практичным выбором, конкурентоспособным с субсловными моделями в широком спектре сценариев использования.
English
We introduce Bolmo, the first family of competitive fully open byte-level language models (LMs) at the 1B and 7B parameter scales. In contrast to prior research on byte-level LMs, which focuses predominantly on training from scratch, we train Bolmo by byteifying existing subword-level LMs. Byteification enables overcoming the limitations of subword tokenization - such as insufficient character understanding and efficiency constraints due to the fixed subword vocabulary - while performing at the level of leading subword-level LMs. Bolmo is specifically designed for byteification: our architecture resolves a mismatch between the expressivity of prior byte-level architectures and subword-level LMs, which makes it possible to employ an effective exact distillation objective between Bolmo and the source subword model. This allows for converting a subword-level LM to a byte-level LM by investing less than 1\% of a typical pretraining token budget. Bolmo substantially outperforms all prior byte-level LMs of comparable size, and outperforms the source subword-level LMs on character understanding and, in some cases, coding, while coming close to matching the original LMs' performance on other tasks. Furthermore, we show that Bolmo can achieve inference speeds competitive with subword-level LMs by training with higher token compression ratios, and can be cheaply and effectively post-trained by leveraging the existing ecosystem around the source subword-level LM. Our results finally make byte-level LMs a practical choice competitive with subword-level LMs across a wide set of use cases.
PDF62December 23, 2025