ChatPaper.aiChatPaper

XC-Cache: Cross-Attending naar Gecachete Context voor Efficiënte LLM-Inferentie

XC-Cache: Cross-Attending to Cached Context for Efficient LLM Inference

April 23, 2024
Auteurs: João Monteiro, Étienne Marcotte, Pierre-André Noël, Valentina Zantedeschi, David Vázquez, Nicolas Chapados, Christopher Pal, Perouz Taslakian
cs.AI

Samenvatting

In-context learning (ICL) benaderingen maken doorgaans gebruik van prompting om de generatie van decoder-only taalmodel te conditioneren op referentie-informatie. Just-in-time verwerking van een context is inefficiënt vanwege de kwadratische kosten van self-attention operaties, en caching is wenselijk. Echter kan het cachen van transformer states gemakkelijk bijna evenveel ruimte vereisen als de modelparameters. Wanneer de juiste context niet van tevoren bekend is, kan het cachen van ICL uitdagend zijn. Dit werk gaat deze beperkingen te lijf door modellen te introduceren die, geïnspireerd door de encoder-decoder architectuur, cross-attention gebruiken om de generatie te conditioneren op referentietekst zonder de prompt. Meer specifiek maken we gebruik van vooraf getrainde decoder-only modellen en trainen we slechts een klein aantal toegevoegde lagen. We gebruiken Question-Answering (QA) als testomgeving om het vermogen van onze modellen om conditionele generatie uit te voeren te evalueren en observeren dat ze ICL overtreffen, vergelijkbaar zijn met fine-tuned gepromptte LLM's, en de ruimtevoetafdruk drastisch verminderen ten opzichte van standaard KV-caching met twee ordes van grootte.
English
In-context learning (ICL) approaches typically leverage prompting to condition decoder-only language model generation on reference information. Just-in-time processing of a context is inefficient due to the quadratic cost of self-attention operations, and caching is desirable. However, caching transformer states can easily require almost as much space as the model parameters. When the right context isn't known in advance, caching ICL can be challenging. This work addresses these limitations by introducing models that, inspired by the encoder-decoder architecture, use cross-attention to condition generation on reference text without the prompt. More precisely, we leverage pre-trained decoder-only models and only train a small number of added layers. We use Question-Answering (QA) as a testbed to evaluate the ability of our models to perform conditional generation and observe that they outperform ICL, are comparable to fine-tuned prompted LLMs, and drastically reduce the space footprint relative to standard KV caching by two orders of magnitude.
PDF111December 15, 2024