ChatPaper.aiChatPaper

Kontextzuweisung: Die Zuordnung der Modellgenerierung zum Kontext

ContextCite: Attributing Model Generation to Context

September 1, 2024
Autoren: Benjamin Cohen-Wang, Harshay Shah, Kristian Georgiev, Aleksander Madry
cs.AI

Zusammenfassung

Wie nutzen Sprachmodelle die bereitgestellten Informationen als Kontext bei der Generierung einer Antwort? Können wir ableiten, ob eine bestimmte generierte Aussage tatsächlich auf dem Kontext beruht, eine Fehlinterpretation ist oder fabriziert wurde? Um diese Fragen zu beantworten, führen wir das Problem der Kontextzuweisung ein: das Herausfinden der Teile des Kontexts (falls vorhanden), die ein Modell dazu veranlasst haben, eine bestimmte Aussage zu generieren. Anschließend stellen wir ContextCite vor, eine einfache und skalierbare Methode zur Kontextzuweisung, die auf jedes vorhandene Sprachmodell angewendet werden kann. Abschließend präsentieren wir die Nützlichkeit von ContextCite anhand von drei Anwendungen: (1) Unterstützung bei der Überprüfung generierter Aussagen, (2) Verbesserung der Antwortqualität durch Beschneiden des Kontexts und (3) Erkennung von Vergiftungsangriffen. Den Code für ContextCite stellen wir unter https://github.com/MadryLab/context-cite zur Verfügung.
English
How do language models use information provided as context when generating a response? Can we infer whether a particular generated statement is actually grounded in the context, a misinterpretation, or fabricated? To help answer these questions, we introduce the problem of context attribution: pinpointing the parts of the context (if any) that led a model to generate a particular statement. We then present ContextCite, a simple and scalable method for context attribution that can be applied on top of any existing language model. Finally, we showcase the utility of ContextCite through three applications: (1) helping verify generated statements (2) improving response quality by pruning the context and (3) detecting poisoning attacks. We provide code for ContextCite at https://github.com/MadryLab/context-cite.
PDF143November 16, 2024