Когда доверять контексту: Саморефлексивные дебаты о надежности контекста
When to Trust Context: Self-Reflective Debates for Context Reliability
June 6, 2025
Авторы: Zeqi Zhou, Fang Wu, Shayan Talaei, Haokai Zhao, Cheng Meixin, Tinson Xu, Amin Saberi, Yejin Choi
cs.AI
Аннотация
Крупные языковые модели часто сталкиваются с конфликтами между их параметрическими знаниями и контекстным вводом, что нередко приводит к фактическим несоответствиям или галлюцинациям. Мы предлагаем метод Self-Reflective Debate for Contextual Reliability (SR-DCR), легковесный фреймворк, который интегрирует самоуверенность на уровне токенов с асимметричным многоагентным дебатом для разрешения таких конфликтов. Критик, лишенный контекста, оспаривает защитника, который аргументирует на основе предоставленного текста; модель-судья оценивает дебаты и определяет надежность контекста. Окончательный ответ выбирается путем объединения вердикта с уверенностью модели. Эксперименты на бенчмарке ClashEval демонстрируют, что SR-DCR последовательно повышает устойчивость к вводящему в заблуждение контексту, сохраняя точность на достоверных входах, превосходя как классические дебаты, так и базовые методы, основанные только на уверенности, при минимальных вычислительных затратах. Код доступен по адресу https://github.com/smiles724/Self-Reflective-Debates.
English
Large language models frequently encounter conflicts between their parametric
knowledge and contextual input, often resulting in factual inconsistencies or
hallucinations. We propose Self-Reflective Debate for Contextual Reliability
(SR-DCR), a lightweight framework that integrates token-level self-confidence
with an asymmetric multi-agent debate to adjudicate such conflicts. A critic,
deprived of context, challenges a defender who argues from the given passage; a
judge model evaluates the debate and determines the context's reliability. The
final answer is selected by combining the verdict with model confidence.
Experiments on the ClashEval benchmark demonstrate that SR-DCR consistently
enhances robustness to misleading context while maintaining accuracy on
trustworthy inputs, outperforming both classical debate and confidence-only
baselines with minimal computational overhead. The code is available at
https://github.com/smiles724/Self-Reflective-Debates.