ContextCite: Het toeschrijven van modelgeneratie aan context
ContextCite: Attributing Model Generation to Context
September 1, 2024
Auteurs: Benjamin Cohen-Wang, Harshay Shah, Kristian Georgiev, Aleksander Madry
cs.AI
Samenvatting
Hoe gebruiken taalmodellen informatie die als context wordt aangeboden bij het genereren van een reactie? Kunnen we vaststellen of een specifieke gegenereerde uitspraak daadwerkelijk gebaseerd is op de context, een misinterpretatie is, of verzonnen? Om deze vragen te beantwoorden, introduceren we het probleem van contextattributie: het identificeren van de delen van de context (indien aanwezig) die een model hebben aangezet tot het genereren van een bepaalde uitspraak. Vervolgens presenteren we ContextCite, een eenvoudige en schaalbare methode voor contextattributie die kan worden toegepast op elk bestaand taalmodel. Tot slot demonstreren we de bruikbaarheid van ContextCite aan de hand van drie toepassingen: (1) het verifiëren van gegenereerde uitspraken, (2) het verbeteren van de reactiekwaliteit door de context te snoeien, en (3) het detecteren van vergiftigingsaanvallen. We bieden code voor ContextCite aan op https://github.com/MadryLab/context-cite.
English
How do language models use information provided as context when generating a
response? Can we infer whether a particular generated statement is actually
grounded in the context, a misinterpretation, or fabricated? To help answer
these questions, we introduce the problem of context attribution: pinpointing
the parts of the context (if any) that led a model to generate a particular
statement. We then present ContextCite, a simple and scalable method for
context attribution that can be applied on top of any existing language model.
Finally, we showcase the utility of ContextCite through three applications: (1)
helping verify generated statements (2) improving response quality by pruning
the context and (3) detecting poisoning attacks. We provide code for
ContextCite at https://github.com/MadryLab/context-cite.Summary
AI-Generated Summary