Autoencodeur en contexte pour la compression contextuelle dans un modèle de langage à grande échelle
In-context Autoencoder for Context Compression in a Large Language Model
July 13, 2023
Auteurs: Tao Ge, Jing Hu, Xun Wang, Si-Qing Chen, Furu Wei
cs.AI
Résumé
Nous proposons l'Autoencodeur en Contexte (In-context Autoencoder, ICAE) pour la compression de contexte dans un modèle de langage de grande taille (Large Language Model, LLM). L'ICAE est composé de deux modules : un encodeur apprenable adapté avec LoRA à partir d'un LLM pour compresser un contexte long en un nombre limité d'emplacements mémoire, et un décodeur fixe qui est le LLM cible pouvant se conditionner sur ces emplacements mémoire pour diverses finalités. Nous pré-entraînons d'abord l'ICAE en utilisant à la fois des objectifs d'autoencodage et de modélisation du langage sur des données textuelles massives, lui permettant de générer des emplacements mémoire qui représentent de manière précise et exhaustive le contexte original. Ensuite, nous affinons l'ICAE pré-entraîné sur une petite quantité de données d'instruction pour améliorer son interaction avec divers prompts afin de produire des réponses souhaitées. Nos résultats expérimentaux montrent que l'ICAE, appris selon notre paradigme de pré-entraînement et d'affinage proposé, peut efficacement produire des emplacements mémoire avec une compression de contexte de 4 fois, sur lesquels le LLM cible peut se conditionner pour répondre à divers prompts. Ces résultats prometteurs démontrent les implications significatives de l'ICAE pour son approche novatrice du problème de contexte long et son potentiel à réduire les surcharges de calcul et de mémoire pour l'inférence des LLM en pratique, suggérant des efforts de recherche supplémentaires dans la gestion de contexte pour un LLM. Notre code et nos données seront publiés prochainement.
English
We propose the In-context Autoencoder (ICAE) for context compression in a
large language model (LLM). The ICAE has two modules: a learnable encoder
adapted with LoRA from an LLM for compressing a long context into a limited
number of memory slots, and a fixed decoder which is the target LLM that can
condition on the memory slots for various purposes. We first pretrain the ICAE
using both autoencoding and language modeling objectives on massive text data,
enabling it to generate memory slots that accurately and comprehensively
represent the original context. Then, we fine-tune the pretrained ICAE on a
small amount of instruct data to enhance its interaction with various prompts
for producing desirable responses. Our experimental results demonstrate that
the ICAE learned with our proposed pretraining and fine-tuning paradigm can
effectively produce memory slots with 4times context compression, which can
be well conditioned on by the target LLM to respond to various prompts. The
promising results demonstrate significant implications of the ICAE for its
novel approach to the long context problem and its potential to reduce
computation and memory overheads for LLM inference in practice, suggesting
further research effort in context management for an LLM. Our code and data
will be released shortly.