Pardal: Compressão de Cache Chave-Valor Guiada por Prompt

Resumo

Aplicações recentes de grandes modelos de linguagem, como Geração com Recuperação Aumentada e chatbots, têm levado a uma necessidade crescente de processar contextos de entrada mais longos. No entanto, essa exigência é prejudicada por limitações inerentes. Arquiteturalmente, os modelos são limitados por uma janela de contexto definida durante o treinamento. Além disso, o processamento de textos extensos requer uma memória significativa da GPU. Propomos uma abordagem inovadora, Finch, para comprimir o contexto de entrada aproveitando os pesos do modelo pré-treinado da autoatenção. Dado um prompt e um texto longo, o Finch identifica iterativamente os pares de Chave (K) e Valor (V) mais relevantes sobre partes do texto condicionadas ao prompt. Apenas tais pares são armazenados na memória cache KV, que, dentro do espaço limitado pela janela de contexto, contém, em última instância, uma versão comprimida do texto longo. Nossa proposta permite que os modelos consumam entradas extensas mesmo com alta compressão (até 93x), preservando a integridade semântica sem a necessidade de ajustes finos.

English

Recent large language model applications, such as Retrieval-Augmented Generation and chatbots, have led to an increased need to process longer input contexts. However, this requirement is hampered by inherent limitations. Architecturally, models are constrained by a context window defined during training. Additionally, processing extensive texts requires substantial GPU memory. We propose a novel approach, Finch, to compress the input context by leveraging the pre-trained model weights of the self-attention. Given a prompt and a long text, Finch iteratively identifies the most relevant Key (K) and Value (V) pairs over chunks of the text conditioned on the prompt. Only such pairs are stored in the KV cache, which, within the space constrained by the context window, ultimately contains a compressed version of the long text. Our proposal enables models to consume large inputs even with high compression (up to 93x) while preserving semantic integrity without the need for fine-tuning.

Pardal: Compressão de Cache Chave-Valor Guiada por Prompt

Finch: Prompt-guided Key-Value Cache Compression

Resumo

Summary

Support

Support