ChatPaper.aiChatPaper

ContextCite: Het toeschrijven van modelgeneratie aan context

ContextCite: Attributing Model Generation to Context

September 1, 2024
Auteurs: Benjamin Cohen-Wang, Harshay Shah, Kristian Georgiev, Aleksander Madry
cs.AI

Samenvatting

Hoe gebruiken taalmodellen informatie die als context wordt aangeboden bij het genereren van een reactie? Kunnen we vaststellen of een specifieke gegenereerde uitspraak daadwerkelijk gebaseerd is op de context, een misinterpretatie is, of verzonnen? Om deze vragen te beantwoorden, introduceren we het probleem van contextattributie: het identificeren van de delen van de context (indien aanwezig) die een model hebben aangezet tot het genereren van een bepaalde uitspraak. Vervolgens presenteren we ContextCite, een eenvoudige en schaalbare methode voor contextattributie die kan worden toegepast op elk bestaand taalmodel. Tot slot demonstreren we de bruikbaarheid van ContextCite aan de hand van drie toepassingen: (1) het verifiëren van gegenereerde uitspraken, (2) het verbeteren van de reactiekwaliteit door de context te snoeien, en (3) het detecteren van vergiftigingsaanvallen. We bieden code voor ContextCite aan op https://github.com/MadryLab/context-cite.
English
How do language models use information provided as context when generating a response? Can we infer whether a particular generated statement is actually grounded in the context, a misinterpretation, or fabricated? To help answer these questions, we introduce the problem of context attribution: pinpointing the parts of the context (if any) that led a model to generate a particular statement. We then present ContextCite, a simple and scalable method for context attribution that can be applied on top of any existing language model. Finally, we showcase the utility of ContextCite through three applications: (1) helping verify generated statements (2) improving response quality by pruning the context and (3) detecting poisoning attacks. We provide code for ContextCite at https://github.com/MadryLab/context-cite.

Summary

AI-Generated Summary

PDF143November 16, 2024