ChatPaper.aiChatPaper

Автокодировщик в контексте для сжатия контекста в крупной языковой модели

In-context Autoencoder for Context Compression in a Large Language Model

July 13, 2023
Авторы: Tao Ge, Jing Hu, Xun Wang, Si-Qing Chen, Furu Wei
cs.AI

Аннотация

Мы предлагаем In-context Autoencoder (ICAE) для сжатия контекста в крупных языковых моделях (LLM). ICAE состоит из двух модулей: обучаемого кодера, адаптированного с использованием LoRA из LLM для сжатия длинного контекста в ограниченное количество слотов памяти, и фиксированного декодера, который представляет собой целевую LLM, способную учитывать слоты памяти для различных целей. Сначала мы предварительно обучаем ICAE, используя как задачи автокодирования, так и языкового моделирования на больших объемах текстовых данных, что позволяет ему генерировать слоты памяти, которые точно и полно представляют исходный контекст. Затем мы дообучаем предварительно обученную ICAE на небольшом количестве инструктивных данных, чтобы улучшить ее взаимодействие с различными запросами для получения желаемых ответов. Наши экспериментальные результаты показывают, что ICAE, обученная с использованием предложенного нами подхода предварительного обучения и дообучения, эффективно создает слоты памяти с 4-кратным сжатием контекста, которые могут быть успешно учтены целевой LLM для ответа на различные запросы. Эти обнадеживающие результаты демонстрируют значительные перспективы ICAE благодаря ее новому подходу к решению проблемы длинного контекста и ее потенциалу для снижения вычислительных и ресурсных затрат при инференсе LLM на практике, что указывает на необходимость дальнейших исследований в области управления контекстом для LLM. Наш код и данные будут опубликованы в ближайшее время.
English
We propose the In-context Autoencoder (ICAE) for context compression in a large language model (LLM). The ICAE has two modules: a learnable encoder adapted with LoRA from an LLM for compressing a long context into a limited number of memory slots, and a fixed decoder which is the target LLM that can condition on the memory slots for various purposes. We first pretrain the ICAE using both autoencoding and language modeling objectives on massive text data, enabling it to generate memory slots that accurately and comprehensively represent the original context. Then, we fine-tune the pretrained ICAE on a small amount of instruct data to enhance its interaction with various prompts for producing desirable responses. Our experimental results demonstrate that the ICAE learned with our proposed pretraining and fine-tuning paradigm can effectively produce memory slots with 4times context compression, which can be well conditioned on by the target LLM to respond to various prompts. The promising results demonstrate significant implications of the ICAE for its novel approach to the long context problem and its potential to reduce computation and memory overheads for LLM inference in practice, suggesting further research effort in context management for an LLM. Our code and data will be released shortly.
PDF280December 15, 2024