ARC-Encoder: aprendizaje de representaciones de texto comprimidas para modelos de lenguaje a gran escala
ARC-Encoder: learning compressed text representations for large language models
October 23, 2025
Autores: Hippolyte Pilchen, Edouard Grave, Patrick Pérez
cs.AI
Resumen
Técnicas recientes como la generación aumentada por recuperación o el razonamiento de cadena de pensamiento han dado lugar a contextos más largos y a un aumento de los costes de inferencia. Las técnicas de compresión de contexto pueden reducir estos costes, pero los enfoques más efectivos requieren ajustar el modelo objetivo o incluso modificar su arquitectura. Esto puede degradar sus capacidades generales cuando no se utiliza para este propósito específico. Aquí exploramos un enfoque alternativo: un codificador que comprime el contexto en representaciones continuas que reemplazan a los *embeddings* de tokens en los LLMs decodificadores. En primer lugar, realizamos un estudio sistemático de las estrategias de entrenamiento y las opciones de arquitectura para el codificador. Nuestros hallazgos condujeron al diseño de un Compresor de Representaciones de Texto Adaptable, denominado ARC-Encoder, que genera x veces menos representaciones continuas (típicamente x ∈ {4,8}) que tokens de texto. Evaluamos ARC-Encoder en una variedad de escenarios de uso de LLMs, que van desde el aprendizaje en contexto hasta la extensión de la ventana de contexto, tanto en decodificadores base como de instrucciones. Los resultados muestran que ARC-Encoder alcanza un rendimiento de vanguardia en varios benchmarks mientras mejora la eficiencia computacional en la inferencia. Finalmente, demostramos que nuestros modelos pueden adaptarse a múltiples decodificadores simultáneamente, permitiendo que un único codificador generalice a través de diferentes LLMs decodificadores. Esto convierte a ARC-Encoder en una solución flexible y eficiente para codificadores portables que funcionan perfectamente con múltiples LLMs. Publicamos el código de entrenamiento en https://github.com/kyutai-labs/ARC-Encoder, y el conjunto de datos para ajuste fino y los modelos preentrenados están disponibles en https://huggingface.co/collections/kyutai/arc-encoders-68ee18787301407d60a57047.
English
Recent techniques such as retrieval-augmented generation or chain-of-thought
reasoning have led to longer contexts and increased inference costs. Context
compression techniques can reduce these costs, but the most effective
approaches require fine-tuning the target model or even modifying its
architecture. This can degrade its general abilities when not used for this
specific purpose. Here we explore an alternative approach: an encoder that
compresses the context into continuous representations which replace token
embeddings in decoder LLMs. First, we perform a systematic study of training
strategies and architecture choices for the encoder. Our findings led to the
design of an Adaptable text Representations Compressor, named ARC-Encoder,
which outputs x-times fewer continuous representations (typically
x!in!{4,8}) than text tokens. We evaluate ARC-Encoder across a variety
of LLM usage scenarios, ranging from in-context learning to context window
extension, on both instruct and base decoders. Results show that ARC-Encoder
achieves state-of-the-art performance on several benchmarks while improving
computational efficiency at inference. Finally, we demonstrate that our models
can be adapted to multiple decoders simultaneously, allowing a single encoder
to generalize across different decoder LLMs. This makes ARC-Encoder a flexible
and efficient solution for portable encoders that work seamlessly with multiple
LLMs. We release a training code at https://github.com/kyutai-labs/ARC-Encoder
, fine-tuning dataset and pretrained models are available at
https://huggingface.co/collections/kyutai/arc-encoders-68ee18787301407d60a57047 .