Bolmo: Byteificación de la Nueva Generación de Modelos de Lenguaje
Bolmo: Byteifying the Next Generation of Language Models
December 17, 2025
Autores: Benjamin Minixhofer, Tyler Murray, Tomasz Limisiewicz, Anna Korhonen, Luke Zettlemoyer, Noah A. Smith, Edoardo M. Ponti, Luca Soldaini, Valentin Hofmann
cs.AI
Resumen
Presentamos a Bolmo, la primera familia de modelos de lenguaje (ML) competitivos completamente abiertos a nivel de byte en las escalas de 1B y 7B de parámetros. A diferencia de investigaciones previas sobre ML a nivel de byte, que se centran predominantemente en el entrenamiento desde cero, entrenamos a Bolmo mediante la "byteificación" de ML existentes a nivel de subpalabra. La byteificación permite superar las limitaciones de la tokenización por subpalabras —como la comprensión insuficiente de caracteres y las restricciones de eficiencia debidas al vocabulario fijo de subpalabras— mientras se rinde al nivel de los principales ML a nivel de subpalabra. Bolmo está específicamente diseñado para la byteificación: nuestra arquitectura resuelve un desajuste entre la expresividad de las arquitecturas previas a nivel de byte y los ML a nivel de subpalabra, lo que hace posible emplear un objetivo de destilación exacta efectivo entre Bolmo y el modelo de subpalabras fuente. Esto permite convertir un ML a nivel de subpalabra en un ML a nivel de byte invirtiendo menos del 1% del presupuesto típico de tokens de preentrenamiento. Bolmo supera sustancialmente a todos los ML previos a nivel de byte de tamaño comparable, y supera a los ML fuente a nivel de subpalabra en comprensión de caracteres y, en algunos casos, en programación, al tiempo que se acerca al rendimiento de los ML originales en otras tareas. Además, mostramos que Bolmo puede alcanzar velocidades de inferencia competitivas con los ML a nivel de subpalabra al entrenarse con ratios de compresión de tokens más altos, y puede ser post-entrenado de forma económica y efectiva aprovechando el ecosistema existente alrededor del ML de subpalabras fuente. Nuestros resultados convierten finalmente a los ML a nivel de byte en una opción práctica y competitiva frente a los ML a nivel de subpalabra en un amplio conjunto de casos de uso.
English
We introduce Bolmo, the first family of competitive fully open byte-level language models (LMs) at the 1B and 7B parameter scales. In contrast to prior research on byte-level LMs, which focuses predominantly on training from scratch, we train Bolmo by byteifying existing subword-level LMs. Byteification enables overcoming the limitations of subword tokenization - such as insufficient character understanding and efficiency constraints due to the fixed subword vocabulary - while performing at the level of leading subword-level LMs. Bolmo is specifically designed for byteification: our architecture resolves a mismatch between the expressivity of prior byte-level architectures and subword-level LMs, which makes it possible to employ an effective exact distillation objective between Bolmo and the source subword model. This allows for converting a subword-level LM to a byte-level LM by investing less than 1\% of a typical pretraining token budget. Bolmo substantially outperforms all prior byte-level LMs of comparable size, and outperforms the source subword-level LMs on character understanding and, in some cases, coding, while coming close to matching the original LMs' performance on other tasks. Furthermore, we show that Bolmo can achieve inference speeds competitive with subword-level LMs by training with higher token compression ratios, and can be cheaply and effectively post-trained by leveraging the existing ecosystem around the source subword-level LM. Our results finally make byte-level LMs a practical choice competitive with subword-level LMs across a wide set of use cases.