ChatPaper.aiChatPaper

Bolmo : La conversion en octets de la nouvelle génération de modèles de langage

Bolmo: Byteifying the Next Generation of Language Models

December 17, 2025
papers.authors: Benjamin Minixhofer, Tyler Murray, Tomasz Limisiewicz, Anna Korhonen, Luke Zettlemoyer, Noah A. Smith, Edoardo M. Ponti, Luca Soldaini, Valentin Hofmann
cs.AI

papers.abstract

Nous présentons Bolmo, la première famille de modèles de langage (ML) compétitifs entièrement ouverts au niveau des octets, aux échelles de 1 et 7 milliards de paramètres. Contrairement aux recherches antérieures sur les ML au niveau des octets, qui se concentrent principalement sur l'entraînement à partir de zéro, nous entraînons Bolmo en « octetifiant » des ML existants au niveau des sous-mots. L'octétification permet de surmonter les limitations de la tokenisation par sous-mots – telles que la compréhension insuffisante des caractères et les contraintes d'efficacité dues au vocabulaire fixe de sous-mots – tout en performant au niveau des meilleurs ML au niveau des sous-mots. Bolmo est spécifiquement conçu pour l'octétification : notre architecture résout un décalage entre l'expressivité des architectures antérieures au niveau des octets et celle des ML au niveau des sous-mots, ce qui permet d'employer un objectif de distillation exacte efficace entre Bolmo et le modèle source à sous-mots. Cela permet de convertir un ML au niveau des sous-mots en un ML au niveau des octets en investissant moins de 1 % du budget typique en tokens de pré-entraînement. Bolmo surpasse substantiellement tous les ML antérieurs au niveau des octets de taille comparable, et surpasse les ML sources au niveau des sous-mots dans la compréhension des caractères et, dans certains cas, en programmation, tout en approchant les performances des ML originaux sur d'autres tâches. De plus, nous montrons que Bolmo peut atteindre des vitesses d'inférence compétitives avec les ML au niveau des sous-mots en s'entraînant avec des taux de compression de tokens plus élevés, et peut être post-entraîné de manière économique et efficace en tirant parti de l'écosystème existant autour du modèle source à sous-mots. Nos résultats font enfin des ML au niveau des octets un choix pratique et compétitif face aux ML au niveau des sous-mots pour un large éventail de cas d'usage.
English
We introduce Bolmo, the first family of competitive fully open byte-level language models (LMs) at the 1B and 7B parameter scales. In contrast to prior research on byte-level LMs, which focuses predominantly on training from scratch, we train Bolmo by byteifying existing subword-level LMs. Byteification enables overcoming the limitations of subword tokenization - such as insufficient character understanding and efficiency constraints due to the fixed subword vocabulary - while performing at the level of leading subword-level LMs. Bolmo is specifically designed for byteification: our architecture resolves a mismatch between the expressivity of prior byte-level architectures and subword-level LMs, which makes it possible to employ an effective exact distillation objective between Bolmo and the source subword model. This allows for converting a subword-level LM to a byte-level LM by investing less than 1\% of a typical pretraining token budget. Bolmo substantially outperforms all prior byte-level LMs of comparable size, and outperforms the source subword-level LMs on character understanding and, in some cases, coding, while coming close to matching the original LMs' performance on other tasks. Furthermore, we show that Bolmo can achieve inference speeds competitive with subword-level LMs by training with higher token compression ratios, and can be cheaply and effectively post-trained by leveraging the existing ecosystem around the source subword-level LM. Our results finally make byte-level LMs a practical choice competitive with subword-level LMs across a wide set of use cases.
PDF62December 23, 2025