ChatPaper.aiChatPaper

КонтекстЦитата: Присвоение генерации модели контексту

ContextCite: Attributing Model Generation to Context

September 1, 2024
Авторы: Benjamin Cohen-Wang, Harshay Shah, Kristian Georgiev, Aleksander Madry
cs.AI

Аннотация

Как языковые модели используют предоставленную информацию в качестве контекста при генерации ответа? Можем ли мы сделать вывод, основан ли конкретный сгенерированный ответ на контексте, является ли он неправильным пониманием или выдумкой? Чтобы помочь ответить на эти вопросы, мы представляем проблему атрибуции контекста: определение частей контекста (если таковые имеются), которые привели модель к генерации конкретного высказывания. Затем мы представляем ContextCite, простой и масштабируемый метод атрибуции контекста, который может быть применен поверх любой существующей языковой модели. Наконец, мы демонстрируем полезность ContextCite через три приложения: (1) помощь в верификации сгенерированных высказываний, (2) улучшение качества ответа путем обрезки контекста и (3) обнаружение атак методом отравления. Мы предоставляем код для ContextCite по адресу https://github.com/MadryLab/context-cite.
English
How do language models use information provided as context when generating a response? Can we infer whether a particular generated statement is actually grounded in the context, a misinterpretation, or fabricated? To help answer these questions, we introduce the problem of context attribution: pinpointing the parts of the context (if any) that led a model to generate a particular statement. We then present ContextCite, a simple and scalable method for context attribution that can be applied on top of any existing language model. Finally, we showcase the utility of ContextCite through three applications: (1) helping verify generated statements (2) improving response quality by pruning the context and (3) detecting poisoning attacks. We provide code for ContextCite at https://github.com/MadryLab/context-cite.

Summary

AI-Generated Summary

PDF143November 16, 2024