ContestoCita: Attribuzione della Generazione del Modello al Contesto
ContextCite: Attributing Model Generation to Context
September 1, 2024
Autori: Benjamin Cohen-Wang, Harshay Shah, Kristian Georgiev, Aleksander Madry
cs.AI
Abstract
Come utilizzano i modelli linguistici le informazioni fornite come contesto durante la generazione di una risposta? Possiamo dedurre se una particolare affermazione generata è effettivamente basata sul contesto, se è frutto di un fraintendimento o se è fabbricata? Per aiutare a rispondere a queste domande, introduciamo il problema dell'attribuzione del contesto: individuare le parti del contesto (se presenti) che hanno portato un modello a generare una particolare affermazione. Presentiamo quindi ContextCite, un metodo semplice e scalabile per l'attribuzione del contesto che può essere applicato su qualsiasi modello linguistico esistente. Infine, mostriamo l'utilità di ContextCite attraverso tre applicazioni: (1) aiutare a verificare le affermazioni generate, (2) migliorare la qualità della risposta eliminando parti del contesto e (3) rilevare attacchi di avvelenamento. Forniamo il codice per ContextCite su https://github.com/MadryLab/context-cite.
English
How do language models use information provided as context when generating a
response? Can we infer whether a particular generated statement is actually
grounded in the context, a misinterpretation, or fabricated? To help answer
these questions, we introduce the problem of context attribution: pinpointing
the parts of the context (if any) that led a model to generate a particular
statement. We then present ContextCite, a simple and scalable method for
context attribution that can be applied on top of any existing language model.
Finally, we showcase the utility of ContextCite through three applications: (1)
helping verify generated statements (2) improving response quality by pruning
the context and (3) detecting poisoning attacks. We provide code for
ContextCite at https://github.com/MadryLab/context-cite.