ChatPaper.aiChatPaper

ボルモ: 次世代言語モデルのバイト化

Bolmo: Byteifying the Next Generation of Language Models

December 17, 2025
著者: Benjamin Minixhofer, Tyler Murray, Tomasz Limisiewicz, Anna Korhonen, Luke Zettlemoyer, Noah A. Smith, Edoardo M. Ponti, Luca Soldaini, Valentin Hofmann
cs.AI

要旨

我々は、10億パラメータ及び70億パラメータ規模において競争力を持つ、初の完全オープンなバイトレベル言語モデルファミリー「Bolmo」を発表する。従来のバイトレベルLM研究が主にスクラッチトレーニングに焦点を当ててきたのに対し、我々は既存のサブワードレベルLMをバイト化することでBolmoを訓練する。バイト化により、文字理解の不十分さや固定サブワード語彙による効率性の制約といったサブワードトークン化の限界を克服しつつ、主要なサブワードレベルLMと同等の性能を発揮する。Bolmoは特にバイト化のために設計されている:我々のアーキテクチャは、従来のバイトレベルアーキテクチャとサブワードレベルLMの間の表現力のミスマッチを解決し、Bolmoと元のサブワードモデル間で効果的な厳密な蒸留目標を採用することを可能にする。これにより、典型的な事前学習に必要なトークンバジェットの1%未満の投入で、サブワードレベルLMをバイトレベルLMに変換できる。Bolmoは、同規模の従来の全てのバイトレベルLMを大幅に上回り、文字理解タスクおよび場合によってはコーディングタスクにおいて元のサブワードレベルLMを上回る性能を示し、他のタスクでも元のLMの性能に迫る。さらに、高いトークン圧縮率で訓練することでサブワードレベルLMと競合する推論速度を達成可能であること、および元のサブワードレベルLMを巡る既存のエコシステムを活用することで、安価かつ効果的に事後訓練が可能であることを示す。我々の成果により、バイトレベルLMは広範なユースケースにおいてサブワードレベルLMと競合する実用的な選択肢となった。
English
We introduce Bolmo, the first family of competitive fully open byte-level language models (LMs) at the 1B and 7B parameter scales. In contrast to prior research on byte-level LMs, which focuses predominantly on training from scratch, we train Bolmo by byteifying existing subword-level LMs. Byteification enables overcoming the limitations of subword tokenization - such as insufficient character understanding and efficiency constraints due to the fixed subword vocabulary - while performing at the level of leading subword-level LMs. Bolmo is specifically designed for byteification: our architecture resolves a mismatch between the expressivity of prior byte-level architectures and subword-level LMs, which makes it possible to employ an effective exact distillation objective between Bolmo and the source subword model. This allows for converting a subword-level LM to a byte-level LM by investing less than 1\% of a typical pretraining token budget. Bolmo substantially outperforms all prior byte-level LMs of comparable size, and outperforms the source subword-level LMs on character understanding and, in some cases, coding, while coming close to matching the original LMs' performance on other tasks. Furthermore, we show that Bolmo can achieve inference speeds competitive with subword-level LMs by training with higher token compression ratios, and can be cheaply and effectively post-trained by leveraging the existing ecosystem around the source subword-level LM. Our results finally make byte-level LMs a practical choice competitive with subword-level LMs across a wide set of use cases.
PDF62December 23, 2025