ARC-Encoder: apprendimento di rappresentazioni testuali compresse per modelli linguistici di grandi dimensioni

Abstract

Tecniche recenti come la generazione aumentata dal recupero di informazioni o il ragionamento a catena di pensiero hanno portato a contesti più lunghi e costi di inferenza aumentati. Le tecniche di compressione del contesto possono ridurre questi costi, ma gli approcci più efficaci richiedono il fine-tuning del modello target o addirittura la modifica della sua architettura. Ciò può degradare le sue capacità generali quando non viene utilizzato per questo scopo specifico. Qui esploriamo un approccio alternativo: un encoder che comprime il contesto in rappresentazioni continue che sostituiscono gli embedding dei token nei LLM di tipo decoder. In primo luogo, conduciamo uno studio sistematico delle strategie di addestramento e delle scelte architetturali per l'encoder. I nostri risultati hanno portato alla progettazione di un Compressore di Rappresentazioni di Testo Adattabile, denominato ARC-Encoder, che produce un numero di rappresentazioni continue inferiore di un fattore x (tipicamente x∈{4,8}) rispetto ai token di testo. Valutiamo ARC-Encoder in una varietà di scenari di utilizzo di LLM, dall'apprendimento in-context all'estensione della finestra contestuale, sia su decoder di tipo "instruct" che "base". I risultati mostrano che ARC-Encoder raggiunge prestazioni allo stato dell'arte su diversi benchmark, migliorando al contempo l'efficienza computazionale durante l'inferenza. Infine, dimostriamo che i nostri modelli possono essere adattati a più decoder simultaneamente, permettendo a un singolo encoder di generalizzare su diversi LLM decoder. Ciò rende ARC-Encoder una soluzione flessibile ed efficiente per encoder portabili che funzionano perfettamente con molteplici LLM. Rilasciamo il codice di addestramento all'indirizzo https://github.com/kyutai-labs/ARC-Encoder, mentre il dataset per il fine-tuning e i modelli pre-addestrati sono disponibili su https://huggingface.co/collections/kyutai/arc-encoders-68ee18787301407d60a57047.

English

Recent techniques such as retrieval-augmented generation or chain-of-thought reasoning have led to longer contexts and increased inference costs. Context compression techniques can reduce these costs, but the most effective approaches require fine-tuning the target model or even modifying its architecture. This can degrade its general abilities when not used for this specific purpose. Here we explore an alternative approach: an encoder that compresses the context into continuous representations which replace token embeddings in decoder LLMs. First, we perform a systematic study of training strategies and architecture choices for the encoder. Our findings led to the design of an Adaptable text Representations Compressor, named ARC-Encoder, which outputs x-times fewer continuous representations (typically x!in!{4,8}) than text tokens. We evaluate ARC-Encoder across a variety of LLM usage scenarios, ranging from in-context learning to context window extension, on both instruct and base decoders. Results show that ARC-Encoder achieves state-of-the-art performance on several benchmarks while improving computational efficiency at inference. Finally, we demonstrate that our models can be adapted to multiple decoders simultaneously, allowing a single encoder to generalize across different decoder LLMs. This makes ARC-Encoder a flexible and efficient solution for portable encoders that work seamlessly with multiple LLMs. We release a training code at https://github.com/kyutai-labs/ARC-Encoder , fine-tuning dataset and pretrained models are available at https://huggingface.co/collections/kyutai/arc-encoders-68ee18787301407d60a57047 .

ARC-Encoder: apprendimento di rappresentazioni testuali compresse per modelli linguistici di grandi dimensioni

ARC-Encoder: learning compressed text representations for large language models

Abstract

Support