ChatPaper.aiChatPaper

Bolmo: Die Byteifizierung der nächsten Generation von Sprachmodellen

Bolmo: Byteifying the Next Generation of Language Models

December 17, 2025
papers.authors: Benjamin Minixhofer, Tyler Murray, Tomasz Limisiewicz, Anna Korhonen, Luke Zettlemoyer, Noah A. Smith, Edoardo M. Ponti, Luca Soldaini, Valentin Hofmann
cs.AI

papers.abstract

Wir stellen Bolmo vor, die erste Familie wettbewerbsfähiger, vollständig offener Byte-Level-Sprachmodelle (LMs) im Maßstab von 1B und 7B Parametern. Im Gegensatz zu früheren Forschungsarbeiten zu Byte-Level-LMs, die sich vorwiegend auf Training von Grund auf konzentrieren, trainieren wir Bolmo durch "Byteifizierung" bestehender Subword-Level-LMs. Die Byteifizierung ermöglicht es, die Grenzen der Subword-Tokenisierung – wie unzureichendes Zeichenverständnis und Effizienzbeschränkungen durch das feste Subword-Vokabular – zu überwinden, während eine Leistung auf dem Niveau führender Subword-Level-LMs erzielt wird. Bolmo ist speziell für die Byteifizierung konzipiert: Unsere Architektur löst eine Diskrepanz zwischen der Ausdrucksstärke früherer Byte-Level-Architekturen und Subword-Level-LMs, was den Einsatz eines effektiven exakten Distillationsziels zwischen Bolmo und dem Quell-Subword-Modell ermöglicht. Dies erlaubt die Konvertierung eines Subword-Level-LMs in ein Byte-Level-LM mit einem Aufwand von weniger als 1 % eines typischen Vor-Trainings-Token-Budgets. Bolmo übertrifft alle früheren Byte-Level-LMs vergleichbarer Größe erheblich und übertrifft die Quell-Subword-Level-LMs im Zeichenverständnis und teilweise auch bei Coding-Aufgaben, während es auf anderen Aufgaben die Leistung der ursprünglichen LMs nahezu erreicht. Darüber hinaus zeigen wir, dass Bolmo durch Training mit höheren Token-Kompressionsraten Inferenzgeschwindigkeiten erreichen kann, die mit Subword-Level-LMs wettbewerbsfähig sind, und dass es kostengünstig und effektiv nachtrainiert werden kann, indem das bestehende Ökosystem rund um das Quell-Subword-LM genutzt wird. Unsere Ergebnisse machen Byte-Level-LMs endlich zu einer praktischen Alternative, die mit Subword-Level-LMs über eine breite Palette von Anwendungsfällen wettbewerbsfähig ist.
English
We introduce Bolmo, the first family of competitive fully open byte-level language models (LMs) at the 1B and 7B parameter scales. In contrast to prior research on byte-level LMs, which focuses predominantly on training from scratch, we train Bolmo by byteifying existing subword-level LMs. Byteification enables overcoming the limitations of subword tokenization - such as insufficient character understanding and efficiency constraints due to the fixed subword vocabulary - while performing at the level of leading subword-level LMs. Bolmo is specifically designed for byteification: our architecture resolves a mismatch between the expressivity of prior byte-level architectures and subword-level LMs, which makes it possible to employ an effective exact distillation objective between Bolmo and the source subword model. This allows for converting a subword-level LM to a byte-level LM by investing less than 1\% of a typical pretraining token budget. Bolmo substantially outperforms all prior byte-level LMs of comparable size, and outperforms the source subword-level LMs on character understanding and, in some cases, coding, while coming close to matching the original LMs' performance on other tasks. Furthermore, we show that Bolmo can achieve inference speeds competitive with subword-level LMs by training with higher token compression ratios, and can be cheaply and effectively post-trained by leveraging the existing ecosystem around the source subword-level LM. Our results finally make byte-level LMs a practical choice competitive with subword-level LMs across a wide set of use cases.
PDF62December 23, 2025