ARC-Encoder: обучение сжатых текстовых представлений для больших языковых моделей

Аннотация

Современные методы, такие как генерация с расширением выборки или цепочечные рассуждения, приводят к увеличению длины контекста и росту вычислительных затрат на вывод. Техники сжатия контекста позволяют снизить эти затраты, однако наиболее эффективные подходы требуют дообучения целевой модели или даже модификации её архитектуры. Это может ухудшить её общие способности при использовании не по целевому назначению. В данной работе мы исследуем альтернативный подход: энкодер, который сжимает контекст в непрерывные представления, заменяющие эмбеддинги токенов в декодерах больших языковых моделей. Сначала мы проводим систематическое исследование стратегий обучения и архитектурных решений для энкодера. Наши результаты привели к созданию адаптируемого компрессора текстовых представлений под названием ARC-Encoder, который выдает в x раз меньше непрерывных представлений (обычно x∈{4,8}), чем исходных текстовых токенов. Мы оцениваем ARC-Encoder в различных сценариях использования больших языковых моделей, от обучения в контексте до расширения окна контекста, на инструктивных и базовых декодерах. Результаты показывают, что ARC-Encoder достигает наилучших результатов на нескольких бенчмарках, одновременно повышая вычислительную эффективность при выводе. Наконец, мы демонстрируем, что наши модели можно адаптировать к нескольким декодерам одновременно, что позволяет одному энкодеру обобщаться на различные декодеры больших языковых моделей. Это делает ARC-Encoder гибким и эффективным решением для портативных энкодеров, которые seamlessly работают с несколькими большими языковыми моделями. Мы публикуем код обучения по адресу https://github.com/kyutai-labs/ARC-Encoder, набор данных для дообучения и предобученные модели доступны по адресу https://huggingface.co/collections/kyutai/arc-encoders-68ee18787301407d60a57047.

English

Recent techniques such as retrieval-augmented generation or chain-of-thought reasoning have led to longer contexts and increased inference costs. Context compression techniques can reduce these costs, but the most effective approaches require fine-tuning the target model or even modifying its architecture. This can degrade its general abilities when not used for this specific purpose. Here we explore an alternative approach: an encoder that compresses the context into continuous representations which replace token embeddings in decoder LLMs. First, we perform a systematic study of training strategies and architecture choices for the encoder. Our findings led to the design of an Adaptable text Representations Compressor, named ARC-Encoder, which outputs x-times fewer continuous representations (typically x!in!{4,8}) than text tokens. We evaluate ARC-Encoder across a variety of LLM usage scenarios, ranging from in-context learning to context window extension, on both instruct and base decoders. Results show that ARC-Encoder achieves state-of-the-art performance on several benchmarks while improving computational efficiency at inference. Finally, we demonstrate that our models can be adapted to multiple decoders simultaneously, allowing a single encoder to generalize across different decoder LLMs. This makes ARC-Encoder a flexible and efficient solution for portable encoders that work seamlessly with multiple LLMs. We release a training code at https://github.com/kyutai-labs/ARC-Encoder , fine-tuning dataset and pretrained models are available at https://huggingface.co/collections/kyutai/arc-encoders-68ee18787301407d60a57047 .

ARC-Encoder: обучение сжатых текстовых представлений для больших языковых моделей

ARC-Encoder: learning compressed text representations for large language models

Аннотация

Support