Das Schreiben in den Marginalien: Besseres Inferenzmuster für die Wiederherstellung langer KontexteWriting in the Margins: Better Inference Pattern for Long Context
Retrieval
In diesem Paper stellen wir Writing in the Margins (WiM) vor, ein neues Inferenzmuster für Large Language Models, das darauf abzielt, die Handhabung langer Eingabesequenzen in auf Abruf ausgerichteten Aufgaben zu optimieren. Dieser Ansatz nutzt die segmentweise Inferenz durch die vorgefüllte Chunkung des Schlüssel-Wert-Caches, um eine effiziente Verarbeitung umfangreicher Kontexte sowie die Generierung und Klassifizierung von Zwischeninformationen ("Margen") zu ermöglichen, die das Modell auf spezifische Aufgaben lenken. Diese Methode erhöht den Rechenaufwand geringfügig, während sie die Leistung von Standardmodellen signifikant verbessert, ohne dass Feinabstimmungen erforderlich sind. Insbesondere beobachten wir, dass WiM eine durchschnittliche Verbesserung der Genauigkeit um 7,5% für Schlussfolgerungsfähigkeiten (HotpotQA, MultiHop-RAG) und eine Steigerung des F1-Scores um mehr als 30,0% für Aggregationsaufgaben (CWE) bietet. Darüber hinaus zeigen wir, wie das vorgeschlagene Muster in ein interaktives Abrufdesign passt, das Endbenutzern laufende Updates über den Fortschritt der Kontextverarbeitung bietet und die Integration relevanter Informationen in die endgültige Antwort hervorhebt. Wir veröffentlichen unsere Implementierung von WiM unter Verwendung der Hugging Face Transformers-Bibliothek auf https://github.com/writer/writing-in-the-margins.