Сжатие прокси-серверов для языкового моделирования

Аннотация

Современные языковые модели обучаются почти исключительно на последовательностях токенов, создаваемых фиксированным токенизатором — внешним безубыточным компрессором, часто работающим поверх последовательностей байтов UTF-8, что связывает модель с этим компрессором. Данная работа представляет прокси-сжатие — альтернативную схему обучения, которая сохраняет преимущества эффективности сжатых входных данных, обеспечивая при этом сквозной интерфейс на уровне сырых байтов во время вывода. В процессе обучения одна языковая модель совместно обучается на последовательностях сырых байтов и сжатых представлениях, генерируемых внешними компрессорами; в ходе этого процесса модель учится внутренне выравнивать сжатые последовательности и сырые байты. Это выравнивание обеспечивает эффективный перенос между двумя форматами, даже когда обучение ведется преимущественно на сжатых входных данных, которые отбрасываются на этапе вывода. Обширные эксперименты по языковому моделированию кода демонстрируют, что прокси-сжатие существенно повышает эффективность обучения и значительно превосходит базовые методы, работающие исключительно на уровне байтов, при фиксированных вычислительных бюджетах. С увеличением масштаба модели эти преимущества становятся более выраженными, и модели, обученные с прокси-сжатием, в конечном итоге сравниваются или превосходят подходы, основанные на токенизаторах, при этом работая исключительно с сырыми байтами и сохраняя присущую байтовому моделированию устойчивость.

English

Modern language models are trained almost exclusively on token sequences produced by a fixed tokenizer, an external lossless compressor often over UTF-8 byte sequences, thereby coupling the model to that compressor. This work introduces proxy compression, an alternative training scheme that preserves the efficiency benefits of compressed inputs while providing an end-to-end, raw-byte interface at inference time. During training, one language model is jointly trained on raw byte sequences and compressed views generated by external compressors; through the process, the model learns to internally align compressed sequences and raw bytes. This alignment enables strong transfer between the two formats, even when training predominantly on compressed inputs which are discarded at inference. Extensive experiments on code language modeling demonstrate that proxy compression substantially improves training efficiency and significantly outperforms pure byte-level baselines given fixed compute budgets. As model scale increases, these gains become more pronounced, and proxy-trained models eventually match or rival tokenizer approaches, all while operating solely on raw bytes and retaining the inherent robustness of byte-level modeling.

Сжатие прокси-серверов для языкового моделирования

Proxy Compression for Language Modeling

Аннотация

Support