Compression par proxy pour la modélisation du langage

papers.abstract

Les modèles linguistiques modernes sont entraînés presque exclusivement sur des séquences de tokens produites par un tokeniseur fixe, un compresseur externe sans perte généralement appliqué à des séquences d'octets UTF-8, couplant ainsi le modèle à ce compresseur. Ce travail présente la compression par procuration, un schéma d'entraînement alternatif qui préserve les avantages d'efficacité des entrées compressées tout en fournissant une interface de bout en bout sur les octets bruts au moment de l'inférence. Pendant l'entraînement, un modèle linguistique est entraîné conjointement sur des séquences d'octets bruts et des vues compressées générées par des compresseurs externes ; ce processus permet au modèle d'apprendre à aligner en interne les séquences compressées et les octets bruts. Cet alignement permet un transfert robuste entre les deux formats, même lorsque l'entraînement s'effectue principalement sur des entrées compressées qui sont abandonnées lors de l'inférence. Des expériences approfondies en modélisation linguistique du code démontrent que la compression par procuration améliore considérablement l'efficacité de l'entraînement et surpasse significativement les modèles de référence purement basés sur les octets, pour un budget de calcul fixe. À mesure que l'échelle des modèles augmente, ces gains deviennent plus prononcés, et les modèles entraînés par procuration finissent par égaler ou rivaliser avec les approches utilisant un tokeniseur, le tout en opérant exclusivement sur des octets bruts et en conservant la robustesse inhérente à la modélisation au niveau des octets.

English

Modern language models are trained almost exclusively on token sequences produced by a fixed tokenizer, an external lossless compressor often over UTF-8 byte sequences, thereby coupling the model to that compressor. This work introduces proxy compression, an alternative training scheme that preserves the efficiency benefits of compressed inputs while providing an end-to-end, raw-byte interface at inference time. During training, one language model is jointly trained on raw byte sequences and compressed views generated by external compressors; through the process, the model learns to internally align compressed sequences and raw bytes. This alignment enables strong transfer between the two formats, even when training predominantly on compressed inputs which are discarded at inference. Extensive experiments on code language modeling demonstrate that proxy compression substantially improves training efficiency and significantly outperforms pure byte-level baselines given fixed compute budgets. As model scale increases, these gains become more pronounced, and proxy-trained models eventually match or rival tokenizer approaches, all while operating solely on raw bytes and retaining the inherent robustness of byte-level modeling.

Compression par proxy pour la modélisation du langage

Proxy Compression for Language Modeling

papers.abstract

Support