Das Schreiben in den Marginalien: Besseres Inferenzmuster für die Wiederherstellung langer Kontexte
Writing in the Margins: Better Inference Pattern for Long Context Retrieval
August 27, 2024
Autoren: Melisa Russak, Umar Jamil, Christopher Bryant, Kiran Kamble, Axel Magnuson, Mateusz Russak, Waseem AlShikh
cs.AI
Zusammenfassung
In diesem Paper stellen wir Writing in the Margins (WiM) vor, ein neues Inferenzmuster für Large Language Models, das darauf abzielt, die Handhabung langer Eingabesequenzen in auf Abruf ausgerichteten Aufgaben zu optimieren. Dieser Ansatz nutzt die segmentweise Inferenz durch die vorgefüllte Chunkung des Schlüssel-Wert-Caches, um eine effiziente Verarbeitung umfangreicher Kontexte sowie die Generierung und Klassifizierung von Zwischeninformationen ("Margen") zu ermöglichen, die das Modell auf spezifische Aufgaben lenken. Diese Methode erhöht den Rechenaufwand geringfügig, während sie die Leistung von Standardmodellen signifikant verbessert, ohne dass Feinabstimmungen erforderlich sind. Insbesondere beobachten wir, dass WiM eine durchschnittliche Verbesserung der Genauigkeit um 7,5% für Schlussfolgerungsfähigkeiten (HotpotQA, MultiHop-RAG) und eine Steigerung des F1-Scores um mehr als 30,0% für Aggregationsaufgaben (CWE) bietet. Darüber hinaus zeigen wir, wie das vorgeschlagene Muster in ein interaktives Abrufdesign passt, das Endbenutzern laufende Updates über den Fortschritt der Kontextverarbeitung bietet und die Integration relevanter Informationen in die endgültige Antwort hervorhebt. Wir veröffentlichen unsere Implementierung von WiM unter Verwendung der Hugging Face Transformers-Bibliothek auf https://github.com/writer/writing-in-the-margins.
English
In this paper, we introduce Writing in the Margins (WiM), a new inference
pattern for Large Language Models designed to optimize the handling of long
input sequences in retrieval-oriented tasks. This approach leverages the
chunked prefill of the key-value cache to perform segment-wise inference, which
enables efficient processing of extensive contexts along with the generation
and classification of intermediate information ("margins") that guide the model
towards specific tasks. This method increases computational overhead marginally
while significantly enhancing the performance of off-the-shelf models without
the need for fine-tuning. Specifically, we observe that WiM provides an average
enhancement of 7.5% in accuracy for reasoning skills (HotpotQA, MultiHop-RAG)
and more than a 30.0% increase in the F1-score for aggregation tasks (CWE).
Additionally, we show how the proposed pattern fits into an interactive
retrieval design that provides end-users with ongoing updates about the
progress of context processing, and pinpoints the integration of relevant
information into the final response. We release our implementation of WiM using
Hugging Face Transformers library at
https://github.com/writer/writing-in-the-margins.Summary
AI-Generated Summary