ChatPaper.aiChatPaper

ContextoCita: Atribuir la Generación del Modelo al Contexto

ContextCite: Attributing Model Generation to Context

September 1, 2024
Autores: Benjamin Cohen-Wang, Harshay Shah, Kristian Georgiev, Aleksander Madry
cs.AI

Resumen

¿Cómo utilizan los modelos de lenguaje la información proporcionada como contexto al generar una respuesta? ¿Podemos inferir si una declaración generada en particular está realmente fundamentada en el contexto, es una interpretación errónea o es fabricada? Para ayudar a responder estas preguntas, presentamos el problema de la atribución de contexto: identificar las partes del contexto (si las hay) que llevaron a un modelo a generar una declaración en particular. Luego presentamos ContextCite, un método simple y escalable para la atribución de contexto que se puede aplicar sobre cualquier modelo de lenguaje existente. Finalmente, mostramos la utilidad de ContextCite a través de tres aplicaciones: (1) ayudar a verificar declaraciones generadas, (2) mejorar la calidad de la respuesta al podar el contexto y (3) detectar ataques de envenenamiento. Proporcionamos el código de ContextCite en https://github.com/MadryLab/context-cite.
English
How do language models use information provided as context when generating a response? Can we infer whether a particular generated statement is actually grounded in the context, a misinterpretation, or fabricated? To help answer these questions, we introduce the problem of context attribution: pinpointing the parts of the context (if any) that led a model to generate a particular statement. We then present ContextCite, a simple and scalable method for context attribution that can be applied on top of any existing language model. Finally, we showcase the utility of ContextCite through three applications: (1) helping verify generated statements (2) improving response quality by pruning the context and (3) detecting poisoning attacks. We provide code for ContextCite at https://github.com/MadryLab/context-cite.

Summary

AI-Generated Summary

PDF143November 16, 2024