Bolmo: Byteificação da Próxima Geração de Modelos de Linguagem

Resumo

Apresentamos o Bolmo, a primeira família de modelos de linguagem (ML) competitivos e totalmente abertos em nível de byte nas escalas de 1B e 7B de parâmetros. Em contraste com pesquisas anteriores sobre MLs em nível de byte, que se concentram predominantemente no treinamento a partir do zero, treinamos o Bolmo por meio da "byteificação" de MLs existentes em nível de subpalavra. A byteificação permite superar as limitações da tokenização por subpalavras - como compreensão insuficiente de caracteres e restrições de eficiência devido ao vocabulário fixo de subpalavras - enquanto apresenta desempenho equivalente ao dos principais MLs em nível de subpalavra. O Bolmo foi especificamente projetado para a byteificação: nossa arquitetura resolve uma incompatibilidade entre a expressividade de arquiteturas anteriores em nível de byte e os MLs em nível de subpalavra, o que possibilita empregar um objetivo de destilação exata eficaz entre o Bolmo e o modelo de subpalavra de origem. Isso permite converter um ML em nível de subpalavra para um ML em nível de byte investindo menos de 1% do orçamento típico de tokens de pré-treinamento. O Bolmo supera substancialmente todos os MLs anteriores em nível de byte de tamanho comparável e supera os MLs de subpalavra de origem na compreensão de caracteres e, em alguns casos, em codificação, ao mesmo tempo que se aproxima do desempenho dos MLs originais em outras tarefas. Além disso, mostramos que o Bolmo pode alcançar velocidades de inferência competitivas com os MLs em nível de subpalavra ao ser treinado com maiores taxas de compressão de tokens, e pode ser pós-treinado de forma barata e eficaz aproveitando o ecossistema existente em torno do ML de subpalavra de origem. Nossos resultados tornam finalmente os MLs em nível de byte uma escolha prática e competitiva com os MLs em nível de subpalavra em um amplo conjunto de casos de uso.

English

We introduce Bolmo, the first family of competitive fully open byte-level language models (LMs) at the 1B and 7B parameter scales. In contrast to prior research on byte-level LMs, which focuses predominantly on training from scratch, we train Bolmo by byteifying existing subword-level LMs. Byteification enables overcoming the limitations of subword tokenization - such as insufficient character understanding and efficiency constraints due to the fixed subword vocabulary - while performing at the level of leading subword-level LMs. Bolmo is specifically designed for byteification: our architecture resolves a mismatch between the expressivity of prior byte-level architectures and subword-level LMs, which makes it possible to employ an effective exact distillation objective between Bolmo and the source subword model. This allows for converting a subword-level LM to a byte-level LM by investing less than 1\% of a typical pretraining token budget. Bolmo substantially outperforms all prior byte-level LMs of comparable size, and outperforms the source subword-level LMs on character understanding and, in some cases, coding, while coming close to matching the original LMs' performance on other tasks. Furthermore, we show that Bolmo can achieve inference speeds competitive with subword-level LMs by training with higher token compression ratios, and can be cheaply and effectively post-trained by leveraging the existing ecosystem around the source subword-level LM. Our results finally make byte-level LMs a practical choice competitive with subword-level LMs across a wide set of use cases.

Bolmo: Byteificação da Próxima Geração de Modelos de Linguagem

Bolmo: Byteifying the Next Generation of Language Models

Resumo

Support