ChatPaper.aiChatPaper

언어 모델링을 위한 프록시 압축

Proxy Compression for Language Modeling

February 4, 2026
저자: Lin Zheng, Xinyu Li, Qian Liu, Xiachong Feng, Lingpeng Kong
cs.AI

초록

현대 언어 모델은 거의 전적으로 고정 토크나이저(UTF-8 바이트 시퀀스 기반의 외부 무손실 압축기)가 생성한 토큰 시퀀스로 훈련되어 모델이 해당 압축기에 의존하게 됩니다. 본 연구는 프록시 압축을 소개하며, 이는 추론 시 엔드투엔드 원시 바이트 인터페이스를 제공하면서도 압축된 입력의 효율성 이점을 보존하는 대안적 훈련 방식입니다. 훈련 과정에서 하나의 언어 모델이 원시 바이트 시퀀스와 외부 압축기가 생성한 압축된 뷰를 함께 학습하며, 이를 통해 모델은 압축된 시퀀스와 원시 바이트를 내부적으로 정렬하는 방법을 습득합니다. 이러한 정렬은 주로 훈련 시 사용되었으나 추론 시에는 폐기되는 압축된 입력으로 학습하더라도 두 형식 간의 강력한 전이를 가능하게 합니다. 코드 언어 모델링에 대한 광범위한 실험을 통해 프록시 압축이 훈련 효율을 크게 향상시키고, 고정된 컴퓨팅 예산 내에서 순수 바이트 수준 기준 모델을 크게 능가함을 입증했습니다. 모델 규모가 커질수록 이러한 이점은 더욱 두드러지며, 프록시 훈련된 모델은 결국 토크나이저 접근법과 동등하거나 그 이상의 성능을 달성합니다. 이는 전적으로 원시 바이트만을 사용하면서도 바이트 수준 모델링의 고유한 견고성을 유지합니다.
English
Modern language models are trained almost exclusively on token sequences produced by a fixed tokenizer, an external lossless compressor often over UTF-8 byte sequences, thereby coupling the model to that compressor. This work introduces proxy compression, an alternative training scheme that preserves the efficiency benefits of compressed inputs while providing an end-to-end, raw-byte interface at inference time. During training, one language model is jointly trained on raw byte sequences and compressed views generated by external compressors; through the process, the model learns to internally align compressed sequences and raw bytes. This alignment enables strong transfer between the two formats, even when training predominantly on compressed inputs which are discarded at inference. Extensive experiments on code language modeling demonstrate that proxy compression substantially improves training efficiency and significantly outperforms pure byte-level baselines given fixed compute budgets. As model scale increases, these gains become more pronounced, and proxy-trained models eventually match or rival tokenizer approaches, all while operating solely on raw bytes and retaining the inherent robustness of byte-level modeling.
PDF11February 6, 2026