Compresión por Proxy para Modelado de Lenguaje

Resumen

Los modelos lingüísticos modernos se entrenan casi exclusivamente en secuencias de tokens producidas por un tokenizador fijo, un compresor externo sin pérdidas que a menudo opera sobre secuencias de bytes UTF-8, acoplando así el modelo a ese compresor. Este trabajo introduce la *compresión proxy*, un esquema de entrenamiento alternativo que preserva los beneficios de eficiencia de las entradas comprimidas, al tiempo que proporciona una interfaz de bytes crudos de extremo a extremo durante la inferencia. Durante el entrenamiento, un modelo lingüístico se entrena conjuntamente en secuencias de bytes crudos y en vistas comprimidas generadas por compresores externos; a través de este proceso, el modelo aprende a alinear internamente las secuencias comprimidas con los bytes crudos. Esta alineación permite una fuerte transferencia entre los dos formatos, incluso cuando el entrenamiento se realiza predominantemente con entradas comprimidas que se descartan en la inferencia. Experimentos exhaustivos en modelado lingüístico de código demuestran que la compresión proxy mejora sustancialmente la eficiencia del entrenamiento y supera significativamente a los modelos de referencia de nivel de byte puro, dados unos presupuestos computacionales fijos. A medida que aumenta la escala del modelo, estas ganancias se vuelven más pronunciadas, y los modelos entrenados con proxy eventualmente igualan o rivalizan con los enfoques basados en tokenizadores, todo ello operando únicamente con bytes crudos y conservando la robustez inherente del modelado a nivel de byte.

English

Modern language models are trained almost exclusively on token sequences produced by a fixed tokenizer, an external lossless compressor often over UTF-8 byte sequences, thereby coupling the model to that compressor. This work introduces proxy compression, an alternative training scheme that preserves the efficiency benefits of compressed inputs while providing an end-to-end, raw-byte interface at inference time. During training, one language model is jointly trained on raw byte sequences and compressed views generated by external compressors; through the process, the model learns to internally align compressed sequences and raw bytes. This alignment enables strong transfer between the two formats, even when training predominantly on compressed inputs which are discarded at inference. Extensive experiments on code language modeling demonstrate that proxy compression substantially improves training efficiency and significantly outperforms pure byte-level baselines given fixed compute budgets. As model scale increases, these gains become more pronounced, and proxy-trained models eventually match or rival tokenizer approaches, all while operating solely on raw bytes and retaining the inherent robustness of byte-level modeling.

Compresión por Proxy para Modelado de Lenguaje

Proxy Compression for Language Modeling

Resumen

Support