Bolmo: 차세대 언어 모델의 바이트화
Bolmo: Byteifying the Next Generation of Language Models
December 17, 2025
저자: Benjamin Minixhofer, Tyler Murray, Tomasz Limisiewicz, Anna Korhonen, Luke Zettlemoyer, Noah A. Smith, Edoardo M. Ponti, Luca Soldaini, Valentin Hofmann
cs.AI
초록
우리는 10억 및 70억 매개변수 규모에서 경쟁력 있는 최초의 완전 오픈 바이트 수준 언어 모델(LM) 패밀리인 Bolmo를 소개합니다. 주로 처음부터 학습에 초점을 맞춘 기존 바이트 수준 LM 연구와 달리, Bolmo는 기존 서브워드 수준 LM을 바이트화하여 학습합니다. 바이트화는 선도적인 서브워드 수준 LM의 성능 수준을 유지하면서, 고정된 서브워드 어휘로 인한 문자 이해 부족 및 효율성 제약과 같은 서브워드 토큰화의 한계를 극복할 수 있게 합니다. Bolmo는 특히 바이트화를 위해 설계되었습니다: 우리의 아키텍처는 기존 바이트 수준 아키텍처와 서브워드 수준 LM 간의 표현력 불일치를 해결하여 Bolmo와 원본 서브워드 모델 간에 효과적인 정확 지식 증류 목적 함수를 활용할 수 있도록 합니다. 이를 통해 일반적인 사전 학습 토큰 예산의 1% 미만을 투입하여 서브워드 수준 LM을 바이트 수준 LM으로 변환할 수 있습니다. Bolmo는 유사한 규모의 모든 기존 바이트 수준 LM을 크게 능가하며, 문자 이해 및 경우에 따라 코딩 작업에서 원본 서브워드 수준 LM을 능가하는 동시에 다른 작업에서는 원본 LM의 성능에 근접합니다. 더 나아가, 더 높은 토큰 압축률로 학습함으로써 Bolmo가 서브워드 수준 LM과 경쟁 가능한 추론 속도를 달성할 수 있음을 보여주며, 원본 서브워드 수준 LM을 중심으로 구축된 기존 생태계를 활용하여 저렴하고 효과적으로 사후 학습될 수 있음을 입증합니다. 우리의 결과는 마침내 바이트 수준 LM이 다양한 사용 사례에서 서브워드 수준 LM과 경쟁할 수 있는 실용적인 선택이 되게 합니다.
English
We introduce Bolmo, the first family of competitive fully open byte-level language models (LMs) at the 1B and 7B parameter scales. In contrast to prior research on byte-level LMs, which focuses predominantly on training from scratch, we train Bolmo by byteifying existing subword-level LMs. Byteification enables overcoming the limitations of subword tokenization - such as insufficient character understanding and efficiency constraints due to the fixed subword vocabulary - while performing at the level of leading subword-level LMs. Bolmo is specifically designed for byteification: our architecture resolves a mismatch between the expressivity of prior byte-level architectures and subword-level LMs, which makes it possible to employ an effective exact distillation objective between Bolmo and the source subword model. This allows for converting a subword-level LM to a byte-level LM by investing less than 1\% of a typical pretraining token budget. Bolmo substantially outperforms all prior byte-level LMs of comparable size, and outperforms the source subword-level LMs on character understanding and, in some cases, coding, while coming close to matching the original LMs' performance on other tasks. Furthermore, we show that Bolmo can achieve inference speeds competitive with subword-level LMs by training with higher token compression ratios, and can be cheaply and effectively post-trained by leveraging the existing ecosystem around the source subword-level LM. Our results finally make byte-level LMs a practical choice competitive with subword-level LMs across a wide set of use cases.