ARC-Encoder: aprendendo representações de texto comprimidas para modelos de linguagem de grande escala
ARC-Encoder: learning compressed text representations for large language models
October 23, 2025
Autores: Hippolyte Pilchen, Edouard Grave, Patrick Pérez
cs.AI
Resumo
Técnicas recentes como geração aumentada por recuperação ou raciocínio em cadeia de pensamento têm levado a contextos mais longos e ao aumento dos custos de inferência. As técnicas de compressão de contexto podem reduzir esses custos, mas as abordagens mais eficazes exigem o ajuste fino do modelo alvo ou até mesmo a modificação de sua arquitetura. Isso pode degradar suas habilidades gerais quando não utilizadas para esse propósito específico. Aqui exploramos uma abordagem alternativa: um codificador que comprime o contexto em representações contínuas que substituem os embeddings de tokens em LLMs decodificadores. Primeiro, realizamos um estudo sistemático de estratégias de treinamento e escolhas de arquitetura para o codificador. Nossas descobertas levaram ao projeto de um Compressor de Representações de Texto Adaptável, denominado ARC-Encoder, que produz x vezes menos representações contínuas (tipicamente x ∈ {4,8}) do que tokens de texto. Avaliamos o ARC-Encoder em uma variedade de cenários de uso de LLM, desde aprendizado em contexto até extensão de janela de contexto, tanto em decodificadores base quanto de instrução. Os resultados mostram que o ARC-Encoder alcança desempenho de ponta em vários benchmarks, melhorando simultaneamente a eficiência computacional na inferência. Por fim, demonstramos que nossos modelos podem ser adaptados a múltiplos decodificadores simultaneamente, permitindo que um único codificador generalize entre diferentes LLMs decodificadores. Isso torna o ARC-Encoder uma solução flexível e eficiente para codificadores portáteis que funcionam perfeitamente com múltiplos LLMs. Disponibilizamos um código de treinamento em https://github.com/kyutai-labs/ARC-Encoder, e o conjunto de dados para ajuste fino e os modelos pré-treinados estão disponíveis em https://huggingface.co/collections/kyutai/arc-encoders-68ee18787301407d60a57047.
English
Recent techniques such as retrieval-augmented generation or chain-of-thought
reasoning have led to longer contexts and increased inference costs. Context
compression techniques can reduce these costs, but the most effective
approaches require fine-tuning the target model or even modifying its
architecture. This can degrade its general abilities when not used for this
specific purpose. Here we explore an alternative approach: an encoder that
compresses the context into continuous representations which replace token
embeddings in decoder LLMs. First, we perform a systematic study of training
strategies and architecture choices for the encoder. Our findings led to the
design of an Adaptable text Representations Compressor, named ARC-Encoder,
which outputs x-times fewer continuous representations (typically
x!in!{4,8}) than text tokens. We evaluate ARC-Encoder across a variety
of LLM usage scenarios, ranging from in-context learning to context window
extension, on both instruct and base decoders. Results show that ARC-Encoder
achieves state-of-the-art performance on several benchmarks while improving
computational efficiency at inference. Finally, we demonstrate that our models
can be adapted to multiple decoders simultaneously, allowing a single encoder
to generalize across different decoder LLMs. This makes ARC-Encoder a flexible
and efficient solution for portable encoders that work seamlessly with multiple
LLMs. We release a training code at https://github.com/kyutai-labs/ARC-Encoder
, fine-tuning dataset and pretrained models are available at
https://huggingface.co/collections/kyutai/arc-encoders-68ee18787301407d60a57047 .