ARC-Encoder: Erlernen komprimierter Textrepräsentationen für große Sprachmodelle
ARC-Encoder: learning compressed text representations for large language models
October 23, 2025
papers.authors: Hippolyte Pilchen, Edouard Grave, Patrick Pérez
cs.AI
papers.abstract
Aktuelle Techniken wie retrieval-augmented Generation oder Chain-of-Thought Reasoning haben zu längeren Kontexten und erhöhten Inferenzkosten geführt. Kontextkomprimierungstechniken können diese Kosten senken, aber die effektivsten Ansätze erfordern ein Fine-Tuning des Zielmodells oder sogar Änderungen an dessen Architektur. Dies kann dessen allgemeine Fähigkeiten beeinträchtigen, wenn es nicht für diesen spezifischen Zweck genutzt wird. Hier untersuchen wir einen alternativen Ansatz: einen Encoder, der den Kontext in kontinuierliche Repräsentationen komprimiert, welche Token-Embeddings in Decoder-LLMs ersetzen. Zunächst führen wir eine systematische Studie zu Trainingsstrategien und Architekturentscheidungen für den Encoder durch. Unsere Erkenntnisse führten zum Entwurf eines anpassbaren Textrepräsentationskompressors, genannt ARC-Encoder, der x-mal weniger kontinuierliche Repräsentationen (typischerweise x ∈ {4,8}) ausgibt als Text-Tokens. Wir evaluieren den ARC-Encoder in einer Vielzahl von LLM-Anwendungsszenarien, von In-Context-Learning bis zur Kontextfenstererweiterung, sowohl mit Instruct- als auch Basis-Decodern. Die Ergebnisse zeigen, dass der ARC-Encoder state-of-the-art Leistung in mehreren Benchmarks erreicht und gleichzeitig die Recheneffizienz bei der Inferenz verbessert. Abschließend demonstrieren wir, dass unsere Modelle gleichzeitig an mehrere Decoder angepasst werden können, was einen einzelnen Encoder ermöglicht, der sich über verschiedene Decoder-LLMs verallgemeinern lässt. Dies macht den ARC-Encoder zu einer flexiblen und effizienten Lösung für portable Encoder, die nahtlos mit mehreren LLMs funktionieren. Wir veröffentlichen einen Trainingscode unter https://github.com/kyutai-labs/ARC-Encoder, Fine-Tuning-Datensätze und vortrainierte Modelle sind verfügbar unter https://huggingface.co/collections/kyutai/arc-encoders-68ee18787301407d60a57047.
English
Recent techniques such as retrieval-augmented generation or chain-of-thought
reasoning have led to longer contexts and increased inference costs. Context
compression techniques can reduce these costs, but the most effective
approaches require fine-tuning the target model or even modifying its
architecture. This can degrade its general abilities when not used for this
specific purpose. Here we explore an alternative approach: an encoder that
compresses the context into continuous representations which replace token
embeddings in decoder LLMs. First, we perform a systematic study of training
strategies and architecture choices for the encoder. Our findings led to the
design of an Adaptable text Representations Compressor, named ARC-Encoder,
which outputs x-times fewer continuous representations (typically
x!in!{4,8}) than text tokens. We evaluate ARC-Encoder across a variety
of LLM usage scenarios, ranging from in-context learning to context window
extension, on both instruct and base decoders. Results show that ARC-Encoder
achieves state-of-the-art performance on several benchmarks while improving
computational efficiency at inference. Finally, we demonstrate that our models
can be adapted to multiple decoders simultaneously, allowing a single encoder
to generalize across different decoder LLMs. This makes ARC-Encoder a flexible
and efficient solution for portable encoders that work seamlessly with multiple
LLMs. We release a training code at https://github.com/kyutai-labs/ARC-Encoder
, fine-tuning dataset and pretrained models are available at
https://huggingface.co/collections/kyutai/arc-encoders-68ee18787301407d60a57047 .