ARC-Encoder: apprendimento di rappresentazioni testuali compresse per modelli linguistici di grandi dimensioni
ARC-Encoder: learning compressed text representations for large language models
October 23, 2025
Autori: Hippolyte Pilchen, Edouard Grave, Patrick Pérez
cs.AI
Abstract
Tecniche recenti come la generazione aumentata dal recupero di informazioni o il ragionamento a catena di pensiero hanno portato a contesti più lunghi e costi di inferenza aumentati. Le tecniche di compressione del contesto possono ridurre questi costi, ma gli approcci più efficaci richiedono il fine-tuning del modello target o addirittura la modifica della sua architettura. Ciò può degradare le sue capacità generali quando non viene utilizzato per questo scopo specifico. Qui esploriamo un approccio alternativo: un encoder che comprime il contesto in rappresentazioni continue che sostituiscono gli embedding dei token nei LLM di tipo decoder. In primo luogo, conduciamo uno studio sistematico delle strategie di addestramento e delle scelte architetturali per l'encoder. I nostri risultati hanno portato alla progettazione di un Compressore di Rappresentazioni di Testo Adattabile, denominato ARC-Encoder, che produce un numero di rappresentazioni continue inferiore di un fattore x (tipicamente x∈{4,8}) rispetto ai token di testo. Valutiamo ARC-Encoder in una varietà di scenari di utilizzo di LLM, dall'apprendimento in-context all'estensione della finestra contestuale, sia su decoder di tipo "instruct" che "base". I risultati mostrano che ARC-Encoder raggiunge prestazioni allo stato dell'arte su diversi benchmark, migliorando al contempo l'efficienza computazionale durante l'inferenza. Infine, dimostriamo che i nostri modelli possono essere adattati a più decoder simultaneamente, permettendo a un singolo encoder di generalizzare su diversi LLM decoder. Ciò rende ARC-Encoder una soluzione flessibile ed efficiente per encoder portabili che funzionano perfettamente con molteplici LLM. Rilasciamo il codice di addestramento all'indirizzo https://github.com/kyutai-labs/ARC-Encoder, mentre il dataset per il fine-tuning e i modelli pre-addestrati sono disponibili su https://huggingface.co/collections/kyutai/arc-encoders-68ee18787301407d60a57047.
English
Recent techniques such as retrieval-augmented generation or chain-of-thought
reasoning have led to longer contexts and increased inference costs. Context
compression techniques can reduce these costs, but the most effective
approaches require fine-tuning the target model or even modifying its
architecture. This can degrade its general abilities when not used for this
specific purpose. Here we explore an alternative approach: an encoder that
compresses the context into continuous representations which replace token
embeddings in decoder LLMs. First, we perform a systematic study of training
strategies and architecture choices for the encoder. Our findings led to the
design of an Adaptable text Representations Compressor, named ARC-Encoder,
which outputs x-times fewer continuous representations (typically
x!in!{4,8}) than text tokens. We evaluate ARC-Encoder across a variety
of LLM usage scenarios, ranging from in-context learning to context window
extension, on both instruct and base decoders. Results show that ARC-Encoder
achieves state-of-the-art performance on several benchmarks while improving
computational efficiency at inference. Finally, we demonstrate that our models
can be adapted to multiple decoders simultaneously, allowing a single encoder
to generalize across different decoder LLMs. This makes ARC-Encoder a flexible
and efficient solution for portable encoders that work seamlessly with multiple
LLMs. We release a training code at https://github.com/kyutai-labs/ARC-Encoder
, fine-tuning dataset and pretrained models are available at
https://huggingface.co/collections/kyutai/arc-encoders-68ee18787301407d60a57047 .