ChatPaper.aiChatPaper

ContextCite: Attribution de la génération de modèle au contexte

ContextCite: Attributing Model Generation to Context

September 1, 2024
Auteurs: Benjamin Cohen-Wang, Harshay Shah, Kristian Georgiev, Aleksander Madry
cs.AI

Résumé

Comment les modèles de langage utilisent-ils les informations fournies en tant que contexte lors de la génération d'une réponse ? Pouvons-nous déduire si une déclaration générée particulière est effectivement ancrée dans le contexte, une mauvaise interprétation ou fabriquée ? Pour aider à répondre à ces questions, nous introduisons le problème de l'attribution de contexte : identifier les parties du contexte (le cas échéant) qui ont conduit un modèle à générer une déclaration particulière. Nous présentons ensuite ContextCite, une méthode simple et évolutive pour l'attribution de contexte qui peut être appliquée par-dessus n'importe quel modèle de langage existant. Enfin, nous démontrons l'utilité de ContextCite à travers trois applications : (1) aider à vérifier les déclarations générées (2) améliorer la qualité des réponses en élaguant le contexte et (3) détecter les attaques de poison. Nous fournissons le code pour ContextCite sur https://github.com/MadryLab/context-cite.
English
How do language models use information provided as context when generating a response? Can we infer whether a particular generated statement is actually grounded in the context, a misinterpretation, or fabricated? To help answer these questions, we introduce the problem of context attribution: pinpointing the parts of the context (if any) that led a model to generate a particular statement. We then present ContextCite, a simple and scalable method for context attribution that can be applied on top of any existing language model. Finally, we showcase the utility of ContextCite through three applications: (1) helping verify generated statements (2) improving response quality by pruning the context and (3) detecting poisoning attacks. We provide code for ContextCite at https://github.com/MadryLab/context-cite.

Summary

AI-Generated Summary

PDF143November 16, 2024