Bolmo: De volgende generatie taalmodellen in bytes
Bolmo: Byteifying the Next Generation of Language Models
December 17, 2025
Auteurs: Benjamin Minixhofer, Tyler Murray, Tomasz Limisiewicz, Anna Korhonen, Luke Zettlemoyer, Noah A. Smith, Edoardo M. Ponti, Luca Soldaini, Valentin Hofmann
cs.AI
Samenvatting
Wij introduceren Bolmo, de eerste familie van competitieve, volledig open byte-level taalmodel(len) (TM's) op de schaal van 1B en 7B parameters. In tegenstelling tot eerder onderzoek naar byte-level TM's, dat zich voornamelijk richtte op training vanaf nul, trainen wij Bolmo door bestaande subword-level TM's te 'byteificeren'. Byteificatie maakt het mogelijk de beperkingen van subword-tokenisatie te overwinnen – zoals onvoldoende begrip van karakters en efficiëntiebeperkingen door de vaste subword-woordenschat – terwijl prestaties worden geleverd op het niveau van toonaangevende subword-level TM's. Bolmo is specifiek ontworpen voor byteificatie: onze architectuur lost een mismatch op tussen de expressiviteit van eerdere byte-level architecturen en subword-level TM's, waardoor het mogelijk wordt een effectief exact distillatiedoel toe te passen tussen Bolmo en het bron-subword-model. Hierdoor kan een subword-level TM worden omgezet naar een byte-level TM met een investering van minder dan 1% van een typisch pretraining-tokenbudget. Bolmo presteert aanzienlijk beter dan alle eerdere byte-level TM's van vergelijkbare grootte, en overtreft de bron-subword-level TM's op het gebied van karakterbegrip en, in sommige gevallen, coderen, terwijl het de prestaties van de originele TM's op andere taken benadert. Verder tonen wij aan dat Bolmo inferentiesnelheden kan bereiken die competitief zijn met subword-level TM's door training met hogere tokencompressieverhoudingen, en dat het goedkoop en effectief kan worden nagetraind door gebruik te maken van de bestaande ecosystemen rond het bron-subword-model. Onze resultaten maken byte-level TM's eindelijk tot een praktische keuze die competitief is met subword-level TM's voor een breed scala aan gebruiksscenario's.
English
We introduce Bolmo, the first family of competitive fully open byte-level language models (LMs) at the 1B and 7B parameter scales. In contrast to prior research on byte-level LMs, which focuses predominantly on training from scratch, we train Bolmo by byteifying existing subword-level LMs. Byteification enables overcoming the limitations of subword tokenization - such as insufficient character understanding and efficiency constraints due to the fixed subword vocabulary - while performing at the level of leading subword-level LMs. Bolmo is specifically designed for byteification: our architecture resolves a mismatch between the expressivity of prior byte-level architectures and subword-level LMs, which makes it possible to employ an effective exact distillation objective between Bolmo and the source subword model. This allows for converting a subword-level LM to a byte-level LM by investing less than 1\% of a typical pretraining token budget. Bolmo substantially outperforms all prior byte-level LMs of comparable size, and outperforms the source subword-level LMs on character understanding and, in some cases, coding, while coming close to matching the original LMs' performance on other tasks. Furthermore, we show that Bolmo can achieve inference speeds competitive with subword-level LMs by training with higher token compression ratios, and can be cheaply and effectively post-trained by leveraging the existing ecosystem around the source subword-level LM. Our results finally make byte-level LMs a practical choice competitive with subword-level LMs across a wide set of use cases.