Proxycompressie voor Taalmodellering

Samenvatting

Moderne taalmodellen worden vrijwel uitsluitend getraind op tokenreeksen geproduceerd door een vaste tokenizer, een externe verliesloze compressor die vaak werkt op UTF-8-bytereeksen, waardoor het model gekoppeld wordt aan die compressor. Dit werk introduceert proxy-compressie, een alternatief trainingsschema dat de efficiëntievoordelen van gecomprimeerde invoer behoudt, terwijl het een end-to-end, raw-byte-interface biedt tijdens inferentie. Tijdens de training wordt één taalmodel gezamenlijk getraind op raw-bytereeksen en gecomprimeerde weergaven gegenereerd door externe compressors; hierdoor leert het model gecomprimeerde reeksen en raw bytes intern op elkaar af te stemmen. Deze afstemming maakt een sterke transfer tussen de twee formaten mogelijk, zelfs wanneer voornamelijk wordt getraind op gecomprimeerde invoer die tijdens inferentie wordt weggegooid. Uitgebreide experimenten met code-taalmodellering tonen aan dat proxy-compressie de trainingsefficiëntie aanzienlijk verbetert en de pure byte-level-baselines significant overtreft bij vaste rekenbudgetten. Naarmate de modelschaal toeneemt, worden deze winsten duidelijker, en uiteindelijk evenaren of overtreffen proxy-getrainde modellen tokenizer-benaderingen, terwijl ze uitsluitend op raw bytes werken en de inherente robuustheid van byte-level-modellering behouden.

English

Modern language models are trained almost exclusively on token sequences produced by a fixed tokenizer, an external lossless compressor often over UTF-8 byte sequences, thereby coupling the model to that compressor. This work introduces proxy compression, an alternative training scheme that preserves the efficiency benefits of compressed inputs while providing an end-to-end, raw-byte interface at inference time. During training, one language model is jointly trained on raw byte sequences and compressed views generated by external compressors; through the process, the model learns to internally align compressed sequences and raw bytes. This alignment enables strong transfer between the two formats, even when training predominantly on compressed inputs which are discarded at inference. Extensive experiments on code language modeling demonstrate that proxy compression substantially improves training efficiency and significantly outperforms pure byte-level baselines given fixed compute budgets. As model scale increases, these gains become more pronounced, and proxy-trained models eventually match or rival tokenizer approaches, all while operating solely on raw bytes and retaining the inherent robustness of byte-level modeling.

Proxycompressie voor Taalmodellering

Proxy Compression for Language Modeling

Samenvatting

Support