Kontextzuweisung: Die Zuordnung der Modellgenerierung zum Kontext
ContextCite: Attributing Model Generation to Context
September 1, 2024
Autoren: Benjamin Cohen-Wang, Harshay Shah, Kristian Georgiev, Aleksander Madry
cs.AI
Zusammenfassung
Wie nutzen Sprachmodelle die bereitgestellten Informationen als Kontext bei der Generierung einer Antwort? Können wir ableiten, ob eine bestimmte generierte Aussage tatsächlich auf dem Kontext beruht, eine Fehlinterpretation ist oder fabriziert wurde? Um diese Fragen zu beantworten, führen wir das Problem der Kontextzuweisung ein: das Herausfinden der Teile des Kontexts (falls vorhanden), die ein Modell dazu veranlasst haben, eine bestimmte Aussage zu generieren. Anschließend stellen wir ContextCite vor, eine einfache und skalierbare Methode zur Kontextzuweisung, die auf jedes vorhandene Sprachmodell angewendet werden kann. Abschließend präsentieren wir die Nützlichkeit von ContextCite anhand von drei Anwendungen: (1) Unterstützung bei der Überprüfung generierter Aussagen, (2) Verbesserung der Antwortqualität durch Beschneiden des Kontexts und (3) Erkennung von Vergiftungsangriffen. Den Code für ContextCite stellen wir unter https://github.com/MadryLab/context-cite zur Verfügung.
English
How do language models use information provided as context when generating a
response? Can we infer whether a particular generated statement is actually
grounded in the context, a misinterpretation, or fabricated? To help answer
these questions, we introduce the problem of context attribution: pinpointing
the parts of the context (if any) that led a model to generate a particular
statement. We then present ContextCite, a simple and scalable method for
context attribution that can be applied on top of any existing language model.
Finally, we showcase the utility of ContextCite through three applications: (1)
helping verify generated statements (2) improving response quality by pruning
the context and (3) detecting poisoning attacks. We provide code for
ContextCite at https://github.com/MadryLab/context-cite.