Compressione Proxy per la Modellazione Linguistica

Abstract

I moderni modelli linguistici vengono addestrati quasi esclusivamente su sequenze di token prodotte da un tokenizer fisso, un compressore esterno senza perdite che spesso opera su sequenze di byte UTF-8, accoppiando così il modello a quel compressore. Questo lavoro introduce la compressione proxy, uno schema di addestramento alternativo che preserva i vantaggi di efficienza degli input compressi fornendo al contempo un'interfaccia end-to-end a livello di byte grezzi durante l'inferenza. Durante l'addestramento, un modello linguistico viene addestrato congiuntamente su sequenze di byte grezzi e su viste compresse generate da compressori esterni; attraverso questo processo, il modello impara ad allineare internamente le sequenze compresse con i byte grezzi. Questo allineamento consente un forte trasferimento tra i due formati, anche quando l'addestramento avviene prevalentemente su input compressi che vengono poi scartati durante l'inferenza. Esperimenti estensivi sulla modellazione linguistica del codice dimostrano che la compressione proxy migliora sostanzialmente l'efficienza dell'addestramento e supera significativamente i baseline puramente a livello di byte, a parità di budget computazionali. All'aumentare della scala del modello, questi vantaggi diventano più pronunciati, e i modelli addestrati con proxy arrivano a eguagliare o rivaleggiare con gli approcci basati su tokenizer, operando esclusivamente su byte grezzi e mantenendo la robustezza intrinseca della modellazione a livello di byte.

English

Modern language models are trained almost exclusively on token sequences produced by a fixed tokenizer, an external lossless compressor often over UTF-8 byte sequences, thereby coupling the model to that compressor. This work introduces proxy compression, an alternative training scheme that preserves the efficiency benefits of compressed inputs while providing an end-to-end, raw-byte interface at inference time. During training, one language model is jointly trained on raw byte sequences and compressed views generated by external compressors; through the process, the model learns to internally align compressed sequences and raw bytes. This alignment enables strong transfer between the two formats, even when training predominantly on compressed inputs which are discarded at inference. Extensive experiments on code language modeling demonstrate that proxy compression substantially improves training efficiency and significantly outperforms pure byte-level baselines given fixed compute budgets. As model scale increases, these gains become more pronounced, and proxy-trained models eventually match or rival tokenizer approaches, all while operating solely on raw bytes and retaining the inherent robustness of byte-level modeling.

Compressione Proxy per la Modellazione Linguistica

Proxy Compression for Language Modeling

Abstract

Support