ContextoCitar: Atribuindo a Geração do Modelo ao Contexto
ContextCite: Attributing Model Generation to Context
September 1, 2024
Autores: Benjamin Cohen-Wang, Harshay Shah, Kristian Georgiev, Aleksander Madry
cs.AI
Resumo
Como é que os modelos de linguagem utilizam as informações fornecidas como contexto ao gerar uma resposta? Podemos inferir se uma declaração gerada particular está realmente fundamentada no contexto, se é uma interpretação incorreta, ou se é fabricada? Para ajudar a responder a essas questões, introduzimos o problema da atribuição de contexto: identificar as partes do contexto (se h houver) que levaram um modelo a gerar uma declaração específica. Em seguida, apresentamos o ContextCite, um método simples e escalável para atribuição de contexto que pode ser aplicado em cima de qualquer modelo de linguagem existente. Por fim, demonstramos a utilidade do ContextCite através de três aplicações: (1) ajudar a verificar declarações geradas, (2) melhorar a qualidade da resposta ao podar o contexto e (3) detetar ataques de envenenamento. Fornecemos o código para o ContextCite em https://github.com/MadryLab/context-cite.
English
How do language models use information provided as context when generating a
response? Can we infer whether a particular generated statement is actually
grounded in the context, a misinterpretation, or fabricated? To help answer
these questions, we introduce the problem of context attribution: pinpointing
the parts of the context (if any) that led a model to generate a particular
statement. We then present ContextCite, a simple and scalable method for
context attribution that can be applied on top of any existing language model.
Finally, we showcase the utility of ContextCite through three applications: (1)
helping verify generated statements (2) improving response quality by pruning
the context and (3) detecting poisoning attacks. We provide code for
ContextCite at https://github.com/MadryLab/context-cite.Summary
AI-Generated Summary