Proxy-Kompression für Sprachmodellierung

papers.abstract

Moderne Sprachmodelle werden fast ausschließlich auf Token-Sequenzen trainiert, die von einem festen Tokenizer erzeugt werden – einem externen verlustfreien Kompressor, der oft auf UTF-8-Bytefolgen arbeitet. Dadurch wird das Modell an diesen Kompressor gekoppelt. Diese Arbeit stellt Proxy-Kompression vor, ein alternatives Trainingsschema, das die Effizienzvorteile komprimierter Eingaben bewahrt, während es zur Inferenzzeit eine Ende-zu-Ende-Schnittstelle auf Rohtbyte-Ebene bereitstellt. Während des Trainings wird ein Sprachmodell gemeinsam auf Rohtbyte-Sequenzen und komprimierten Ansichten trainiert, die von externen Kompressoren erzeugt werden. Dabei lernt das Modell, komprimierte Sequenzen und Rohtbytes intern in Einklang zu bringen. Diese Ausrichtung ermöglicht einen starken Transfer zwischen den beiden Formaten, selbst wenn überwiegend auf komprimierten Eingaben trainiert wird, die zur Inferenz verworfen werden. Umfangreiche Experimente zur Code-Sprachmodellierung zeigen, dass Proxy-Kompression die Trainingseffizienz erheblich steigert und reine Byte-Level-Baselines bei festen Rechenbudgets signifikant übertrifft. Mit zunehmender Modellgröße werden diese Gewinne deutlicher, und proxy-trainierte Modelle erreichen schließlich die Leistung von Tokenizer-Ansätzen oder übertreffen sie, während sie ausschließlich auf Rohtbytes operieren und die inhärente Robustheit der Byte-Level-Modellierung beibehalten.

English

Modern language models are trained almost exclusively on token sequences produced by a fixed tokenizer, an external lossless compressor often over UTF-8 byte sequences, thereby coupling the model to that compressor. This work introduces proxy compression, an alternative training scheme that preserves the efficiency benefits of compressed inputs while providing an end-to-end, raw-byte interface at inference time. During training, one language model is jointly trained on raw byte sequences and compressed views generated by external compressors; through the process, the model learns to internally align compressed sequences and raw bytes. This alignment enables strong transfer between the two formats, even when training predominantly on compressed inputs which are discarded at inference. Extensive experiments on code language modeling demonstrate that proxy compression substantially improves training efficiency and significantly outperforms pure byte-level baselines given fixed compute budgets. As model scale increases, these gains become more pronounced, and proxy-trained models eventually match or rival tokenizer approaches, all while operating solely on raw bytes and retaining the inherent robustness of byte-level modeling.

Proxy-Kompression für Sprachmodellierung

Proxy Compression for Language Modeling

papers.abstract

Support