Compressão por Proxy para Modelagem de Linguagem

Resumo

Os modelos de linguagem modernos são treinados quase exclusivamente em sequências de tokens produzidas por um tokenizador fixo — um compressor externo sem perdas geralmente aplicado sobre sequências de bytes UTF-8 —, acoplando assim o modelo a esse compressor. Este trabalho introduz a compressão por proxy, um esquema alternativo de treinamento que preserva os benefícios de eficiência das entradas comprimidas, ao mesmo tempo que oferece uma interface de bytes brutos de ponta a ponta no momento da inferência. Durante o treinamento, um modelo de linguagem é treinado conjuntamente em sequências de bytes brutos e em visões comprimidas geradas por compressores externos; por meio desse processo, o modelo aprende a alinhar internamente sequências comprimidas e bytes brutos. Esse alinhamento permite uma forte transferência entre os dois formatos, mesmo quando o treinamento ocorre predominantemente em entradas comprimidas, que são descartadas na inferência. Experimentos extensivos em modelagem de linguagem para código demonstram que a compressão por proxy melhora substancialmente a eficiência do treinamento e supera significativamente as linhas de base puramente em nível de byte, considerando orçamentos computacionais fixos. À medida que a escala do modelo aumenta, esses ganhos tornam-se mais pronunciados, e os modelos treinados por proxy acabam por igualar ou rivalizar com abordagens baseadas em tokenizadores, tudo enquanto operam exclusivamente em bytes brutos e mantêm a robustez inerente da modelagem em nível de byte.

English

Modern language models are trained almost exclusively on token sequences produced by a fixed tokenizer, an external lossless compressor often over UTF-8 byte sequences, thereby coupling the model to that compressor. This work introduces proxy compression, an alternative training scheme that preserves the efficiency benefits of compressed inputs while providing an end-to-end, raw-byte interface at inference time. During training, one language model is jointly trained on raw byte sequences and compressed views generated by external compressors; through the process, the model learns to internally align compressed sequences and raw bytes. This alignment enables strong transfer between the two formats, even when training predominantly on compressed inputs which are discarded at inference. Extensive experiments on code language modeling demonstrate that proxy compression substantially improves training efficiency and significantly outperforms pure byte-level baselines given fixed compute budgets. As model scale increases, these gains become more pronounced, and proxy-trained models eventually match or rival tokenizer approaches, all while operating solely on raw bytes and retaining the inherent robustness of byte-level modeling.

Compressão por Proxy para Modelagem de Linguagem

Proxy Compression for Language Modeling

Resumo

Support