ChatPaper.aiChatPaper

ContestoCita: Attribuzione della Generazione del Modello al Contesto

ContextCite: Attributing Model Generation to Context

September 1, 2024
Autori: Benjamin Cohen-Wang, Harshay Shah, Kristian Georgiev, Aleksander Madry
cs.AI

Abstract

Come utilizzano i modelli linguistici le informazioni fornite come contesto durante la generazione di una risposta? Possiamo dedurre se una particolare affermazione generata è effettivamente basata sul contesto, se è frutto di un fraintendimento o se è fabbricata? Per aiutare a rispondere a queste domande, introduciamo il problema dell'attribuzione del contesto: individuare le parti del contesto (se presenti) che hanno portato un modello a generare una particolare affermazione. Presentiamo quindi ContextCite, un metodo semplice e scalabile per l'attribuzione del contesto che può essere applicato su qualsiasi modello linguistico esistente. Infine, mostriamo l'utilità di ContextCite attraverso tre applicazioni: (1) aiutare a verificare le affermazioni generate, (2) migliorare la qualità della risposta eliminando parti del contesto e (3) rilevare attacchi di avvelenamento. Forniamo il codice per ContextCite su https://github.com/MadryLab/context-cite.
English
How do language models use information provided as context when generating a response? Can we infer whether a particular generated statement is actually grounded in the context, a misinterpretation, or fabricated? To help answer these questions, we introduce the problem of context attribution: pinpointing the parts of the context (if any) that led a model to generate a particular statement. We then present ContextCite, a simple and scalable method for context attribution that can be applied on top of any existing language model. Finally, we showcase the utility of ContextCite through three applications: (1) helping verify generated statements (2) improving response quality by pruning the context and (3) detecting poisoning attacks. We provide code for ContextCite at https://github.com/MadryLab/context-cite.
PDF143November 16, 2024