КонтекстЦитата: Присвоение генерации модели контексту
ContextCite: Attributing Model Generation to Context
September 1, 2024
Авторы: Benjamin Cohen-Wang, Harshay Shah, Kristian Georgiev, Aleksander Madry
cs.AI
Аннотация
Как языковые модели используют предоставленную информацию в качестве контекста при генерации ответа? Можем ли мы сделать вывод, основан ли конкретный сгенерированный ответ на контексте, является ли он неправильным пониманием или выдумкой? Чтобы помочь ответить на эти вопросы, мы представляем проблему атрибуции контекста: определение частей контекста (если таковые имеются), которые привели модель к генерации конкретного высказывания. Затем мы представляем ContextCite, простой и масштабируемый метод атрибуции контекста, который может быть применен поверх любой существующей языковой модели. Наконец, мы демонстрируем полезность ContextCite через три приложения: (1) помощь в верификации сгенерированных высказываний, (2) улучшение качества ответа путем обрезки контекста и (3) обнаружение атак методом отравления. Мы предоставляем код для ContextCite по адресу https://github.com/MadryLab/context-cite.
English
How do language models use information provided as context when generating a
response? Can we infer whether a particular generated statement is actually
grounded in the context, a misinterpretation, or fabricated? To help answer
these questions, we introduce the problem of context attribution: pinpointing
the parts of the context (if any) that led a model to generate a particular
statement. We then present ContextCite, a simple and scalable method for
context attribution that can be applied on top of any existing language model.
Finally, we showcase the utility of ContextCite through three applications: (1)
helping verify generated statements (2) improving response quality by pruning
the context and (3) detecting poisoning attacks. We provide code for
ContextCite at https://github.com/MadryLab/context-cite.Summary
AI-Generated Summary