Finch: Compresión de Caché de Clave-Valor Guiada por Indicaciones
Finch: Prompt-guided Key-Value Cache Compression
July 31, 2024
Autores: Giulio Corallo, Paolo Papotti
cs.AI
Resumen
Las recientes aplicaciones de modelos de lenguaje a gran escala, como Generación con Recuperación Aumentada y chatbots, han generado una mayor necesidad de procesar contextos de entrada más largos. Sin embargo, este requisito se ve obstaculizado por limitaciones inherentes. Desde un punto de vista arquitectónico, los modelos están limitados por una ventana de contexto definida durante el entrenamiento. Además, el procesamiento de textos extensos requiere una cantidad considerable de memoria GPU. Proponemos un enfoque novedoso, Finch, para comprimir el contexto de entrada aprovechando los pesos del modelo pre-entrenado de auto-atención. Dado un estímulo y un texto largo, Finch identifica de forma iterativa los pares de Clave (K) y Valor (V) más relevantes sobre fragmentos del texto condicionados al estímulo. Solo estos pares se almacenan en la caché KV, que, dentro del espacio limitado por la ventana de contexto, contiene en última instancia una versión comprimida del texto largo. Nuestra propuesta permite a los modelos procesar entradas extensas incluso con una alta compresión (hasta 93 veces) mientras se preserva la integridad semántica sin necesidad de ajustes finos.
English
Recent large language model applications, such as Retrieval-Augmented
Generation and chatbots, have led to an increased need to process longer input
contexts. However, this requirement is hampered by inherent limitations.
Architecturally, models are constrained by a context window defined during
training. Additionally, processing extensive texts requires substantial GPU
memory. We propose a novel approach, Finch, to compress the input context by
leveraging the pre-trained model weights of the self-attention. Given a prompt
and a long text, Finch iteratively identifies the most relevant Key (K) and
Value (V) pairs over chunks of the text conditioned on the prompt. Only such
pairs are stored in the KV cache, which, within the space constrained by the
context window, ultimately contains a compressed version of the long text. Our
proposal enables models to consume large inputs even with high compression (up
to 93x) while preserving semantic integrity without the need for fine-tuning.Summary
AI-Generated Summary