ARC-Encodeur : apprentissage de représentations textuelles compressées pour les grands modèles de langage

papers.abstract

Des techniques récentes comme la génération augmentée par retrieval ou le raisonnement en chaîne de pensée ont conduit à des contextes plus longs et à une augmentation des coûts d'inférence. Les techniques de compression de contexte peuvent réduire ces coûts, mais les approches les plus efficaces nécessitent de fine-tuner le modèle cible ou même de modifier son architecture. Cela peut dégrader ses capacités générales lorsqu'il n'est pas utilisé pour cet objectif spécifique. Nous explorons ici une approche alternative : un encodeur qui compresse le contexte en représentations continues remplaçant les embeddings de tokens dans les LLMs décodeurs. Premièrement, nous menons une étude systématique des stratégies d'entraînement et des choix architecturaux pour l'encodeur. Nos résultats ont conduit à la conception d'un Compresseur de Représentations de Texte Adaptable, nommé ARC-Encoder, qui produit x fois moins de représentations continues (typiquement x ∈ {4,8}) que de tokens textuels. Nous évaluons ARC-Encoder sur une variété de scénarios d'utilisation de LLMs, allant de l'apprentissage en contexte à l'extension de fenêtre contextuelle, sur des décodeurs de base et instruct. Les résultats montrent qu'ARC-Encoder atteint des performances state-of-the-art sur plusieurs benchmarks tout en améliorant l'efficacité computationnelle lors de l'inférence. Enfin, nous démontrons que nos modèles peuvent être adaptés à plusieurs décodeurs simultanément, permettant à un seul encodeur de généraliser à travers différents LLMs décodeurs. Cela fait d'ARC-Encoder une solution flexible et efficace pour des encodeurs portables fonctionnant de manière transparente avec plusieurs LLMs. Nous publions un code d'entraînement à l'adresse https://github.com/kyutai-labs/ARC-Encoder ; un jeu de données pour fine-tuning et des modèles pré-entraînés sont disponibles à l'adresse https://huggingface.co/collections/kyutai/arc-encoders-68ee18787301407d60a57047 .

English

Recent techniques such as retrieval-augmented generation or chain-of-thought reasoning have led to longer contexts and increased inference costs. Context compression techniques can reduce these costs, but the most effective approaches require fine-tuning the target model or even modifying its architecture. This can degrade its general abilities when not used for this specific purpose. Here we explore an alternative approach: an encoder that compresses the context into continuous representations which replace token embeddings in decoder LLMs. First, we perform a systematic study of training strategies and architecture choices for the encoder. Our findings led to the design of an Adaptable text Representations Compressor, named ARC-Encoder, which outputs x-times fewer continuous representations (typically x!in!{4,8}) than text tokens. We evaluate ARC-Encoder across a variety of LLM usage scenarios, ranging from in-context learning to context window extension, on both instruct and base decoders. Results show that ARC-Encoder achieves state-of-the-art performance on several benchmarks while improving computational efficiency at inference. Finally, we demonstrate that our models can be adapted to multiple decoders simultaneously, allowing a single encoder to generalize across different decoder LLMs. This makes ARC-Encoder a flexible and efficient solution for portable encoders that work seamlessly with multiple LLMs. We release a training code at https://github.com/kyutai-labs/ARC-Encoder , fine-tuning dataset and pretrained models are available at https://huggingface.co/collections/kyutai/arc-encoders-68ee18787301407d60a57047 .

ARC-Encodeur : apprentissage de représentations textuelles compressées pour les grands modèles de langage

ARC-Encoder: learning compressed text representations for large language models

papers.abstract

Support