ChatPaper.aiChatPaper

Bolmo: Byteificare la Nuova Generazione di Modelli Linguistici

Bolmo: Byteifying the Next Generation of Language Models

December 17, 2025
Autori: Benjamin Minixhofer, Tyler Murray, Tomasz Limisiewicz, Anna Korhonen, Luke Zettlemoyer, Noah A. Smith, Edoardo M. Ponti, Luca Soldaini, Valentin Hofmann
cs.AI

Abstract

Introduciamo Bolmo, la prima famiglia di modelli linguistici (LM) competitivi e completamente open a livello di byte, alle scale di 1B e 7B di parametri. A differenza delle ricerche precedenti sugli LM a livello di byte, che si concentrano prevalentemente sull'addestramento da zero, noi addestriamo Bolmo "byteificando" modelli linguistici esistenti a livello di sottoparole. La byteificazione consente di superare i limiti della tokenizzazione basata su sottoparole – come una comprensione insufficiente dei caratteri e vincoli di efficienza dovuti al vocabolario fisso di sottoparole – pur performando al livello dei migliori LM a livello di sottoparole. Bolmo è progettato specificamente per la byteificazione: la nostra architettura risolve una discrepanza tra l'espressività delle architetture precedenti a livello di byte e quella degli LM a livello di sottoparole, il che rende possibile impiegare un obiettivo di distillazione esatta ed efficace tra Bolmo e il modello sorgente a sottoparole. Ciò permette di convertire un LM a livello di sottoparole in un LM a livello di byte investendo meno dell'1% del tipico budget di token per il pre-addestramento. Bolmo supera sostanzialmente tutti i precedenti LM a livello di byte di dimensioni comparabili e supera i modelli sorgente a livello di sottoparole nella comprensione dei caratteri e, in alcuni casi, nel coding, avvicinandosi alle prestazioni degli LM originali in altri compiti. Inoltre, dimostriamo che Bolmo può raggiungere velocità di inferenza competitive con gli LM a livello di sottoparole addestrandolo con rapporti di compressione dei token più elevati, e può essere post-addestrato in modo economico ed efficace sfruttando l'ecosistema esistente attorno al modello sorgente a sottoparole. I nostri risultati rendono finalmente gli LM a livello di byte una scelta pratica e competitiva con gli LM a livello di sottoparole in un'ampia gamma di casi d'uso.
English
We introduce Bolmo, the first family of competitive fully open byte-level language models (LMs) at the 1B and 7B parameter scales. In contrast to prior research on byte-level LMs, which focuses predominantly on training from scratch, we train Bolmo by byteifying existing subword-level LMs. Byteification enables overcoming the limitations of subword tokenization - such as insufficient character understanding and efficiency constraints due to the fixed subword vocabulary - while performing at the level of leading subword-level LMs. Bolmo is specifically designed for byteification: our architecture resolves a mismatch between the expressivity of prior byte-level architectures and subword-level LMs, which makes it possible to employ an effective exact distillation objective between Bolmo and the source subword model. This allows for converting a subword-level LM to a byte-level LM by investing less than 1\% of a typical pretraining token budget. Bolmo substantially outperforms all prior byte-level LMs of comparable size, and outperforms the source subword-level LMs on character understanding and, in some cases, coding, while coming close to matching the original LMs' performance on other tasks. Furthermore, we show that Bolmo can achieve inference speeds competitive with subword-level LMs by training with higher token compression ratios, and can be cheaply and effectively post-trained by leveraging the existing ecosystem around the source subword-level LM. Our results finally make byte-level LMs a practical choice competitive with subword-level LMs across a wide set of use cases.
PDF62December 23, 2025