Quand faire confiance au contexte : Débats autoréflexifs sur la fiabilité du contexte
When to Trust Context: Self-Reflective Debates for Context Reliability
June 6, 2025
Auteurs: Zeqi Zhou, Fang Wu, Shayan Talaei, Haokai Zhao, Cheng Meixin, Tinson Xu, Amin Saberi, Yejin Choi
cs.AI
Résumé
Les grands modèles de langage rencontrent fréquemment des conflits entre leurs connaissances paramétriques et les entrées contextuelles, ce qui entraîne souvent des incohérences factuelles ou des hallucinations. Nous proposons le Débat Auto-Réflexif pour la Fiabilité Contextuelle (SR-DCR), un cadre léger qui intègre la confiance auto-évaluée au niveau des tokens avec un débat asymétrique multi-agents pour résoudre de tels conflits. Un critique, privé de contexte, défie un défenseur qui argumente à partir du passage donné ; un modèle juge évalue le débat et détermine la fiabilité du contexte. La réponse finale est sélectionnée en combinant le verdict avec la confiance du modèle. Les expériences sur le benchmark ClashEval démontrent que SR-DCR améliore systématiquement la robustesse face à un contexte trompeur tout en maintenant la précision sur les entrées fiables, surpassant à la fois les débats classiques et les bases de référence basées uniquement sur la confiance, avec un surcoût computationnel minimal. Le code est disponible à l'adresse https://github.com/smiles724/Self-Reflective-Debates.
English
Large language models frequently encounter conflicts between their parametric
knowledge and contextual input, often resulting in factual inconsistencies or
hallucinations. We propose Self-Reflective Debate for Contextual Reliability
(SR-DCR), a lightweight framework that integrates token-level self-confidence
with an asymmetric multi-agent debate to adjudicate such conflicts. A critic,
deprived of context, challenges a defender who argues from the given passage; a
judge model evaluates the debate and determines the context's reliability. The
final answer is selected by combining the verdict with model confidence.
Experiments on the ClashEval benchmark demonstrate that SR-DCR consistently
enhances robustness to misleading context while maintaining accuracy on
trustworthy inputs, outperforming both classical debate and confidence-only
baselines with minimal computational overhead. The code is available at
https://github.com/smiles724/Self-Reflective-Debates.