Finch: Compresión de Caché de Clave-Valor Guiada por Indicaciones

Resumen

Las recientes aplicaciones de modelos de lenguaje a gran escala, como Generación con Recuperación Aumentada y chatbots, han generado una mayor necesidad de procesar contextos de entrada más largos. Sin embargo, este requisito se ve obstaculizado por limitaciones inherentes. Desde un punto de vista arquitectónico, los modelos están limitados por una ventana de contexto definida durante el entrenamiento. Además, el procesamiento de textos extensos requiere una cantidad considerable de memoria GPU. Proponemos un enfoque novedoso, Finch, para comprimir el contexto de entrada aprovechando los pesos del modelo pre-entrenado de auto-atención. Dado un estímulo y un texto largo, Finch identifica de forma iterativa los pares de Clave (K) y Valor (V) más relevantes sobre fragmentos del texto condicionados al estímulo. Solo estos pares se almacenan en la caché KV, que, dentro del espacio limitado por la ventana de contexto, contiene en última instancia una versión comprimida del texto largo. Nuestra propuesta permite a los modelos procesar entradas extensas incluso con una alta compresión (hasta 93 veces) mientras se preserva la integridad semántica sin necesidad de ajustes finos.

English

Recent large language model applications, such as Retrieval-Augmented Generation and chatbots, have led to an increased need to process longer input contexts. However, this requirement is hampered by inherent limitations. Architecturally, models are constrained by a context window defined during training. Additionally, processing extensive texts requires substantial GPU memory. We propose a novel approach, Finch, to compress the input context by leveraging the pre-trained model weights of the self-attention. Given a prompt and a long text, Finch iteratively identifies the most relevant Key (K) and Value (V) pairs over chunks of the text conditioned on the prompt. Only such pairs are stored in the KV cache, which, within the space constrained by the context window, ultimately contains a compressed version of the long text. Our proposal enables models to consume large inputs even with high compression (up to 93x) while preserving semantic integrity without the need for fine-tuning.

Finch: Compresión de Caché de Clave-Valor Guiada por Indicaciones

Finch: Prompt-guided Key-Value Cache Compression

Resumen

Support