Pardal: Compressão de Cache Chave-Valor Guiada por Prompt
Finch: Prompt-guided Key-Value Cache Compression
July 31, 2024
Autores: Giulio Corallo, Paolo Papotti
cs.AI
Resumo
Aplicações recentes de grandes modelos de linguagem, como Geração com Recuperação Aumentada e chatbots, têm levado a uma necessidade crescente de processar contextos de entrada mais longos. No entanto, essa exigência é prejudicada por limitações inerentes. Arquiteturalmente, os modelos são limitados por uma janela de contexto definida durante o treinamento. Além disso, o processamento de textos extensos requer uma memória significativa da GPU. Propomos uma abordagem inovadora, Finch, para comprimir o contexto de entrada aproveitando os pesos do modelo pré-treinado da autoatenção. Dado um prompt e um texto longo, o Finch identifica iterativamente os pares de Chave (K) e Valor (V) mais relevantes sobre partes do texto condicionadas ao prompt. Apenas tais pares são armazenados na memória cache KV, que, dentro do espaço limitado pela janela de contexto, contém, em última instância, uma versão comprimida do texto longo. Nossa proposta permite que os modelos consumam entradas extensas mesmo com alta compressão (até 93x), preservando a integridade semântica sem a necessidade de ajustes finos.
English
Recent large language model applications, such as Retrieval-Augmented
Generation and chatbots, have led to an increased need to process longer input
contexts. However, this requirement is hampered by inherent limitations.
Architecturally, models are constrained by a context window defined during
training. Additionally, processing extensive texts requires substantial GPU
memory. We propose a novel approach, Finch, to compress the input context by
leveraging the pre-trained model weights of the self-attention. Given a prompt
and a long text, Finch iteratively identifies the most relevant Key (K) and
Value (V) pairs over chunks of the text conditioned on the prompt. Only such
pairs are stored in the KV cache, which, within the space constrained by the
context window, ultimately contains a compressed version of the long text. Our
proposal enables models to consume large inputs even with high compression (up
to 93x) while preserving semantic integrity without the need for fine-tuning.Summary
AI-Generated Summary