Quand faire confiance au contexte : Débats autoréflexifs sur la fiabilité du contexte

papers.abstract

Les grands modèles de langage rencontrent fréquemment des conflits entre leurs connaissances paramétriques et les entrées contextuelles, ce qui entraîne souvent des incohérences factuelles ou des hallucinations. Nous proposons le Débat Auto-Réflexif pour la Fiabilité Contextuelle (SR-DCR), un cadre léger qui intègre la confiance auto-évaluée au niveau des tokens avec un débat asymétrique multi-agents pour résoudre de tels conflits. Un critique, privé de contexte, défie un défenseur qui argumente à partir du passage donné ; un modèle juge évalue le débat et détermine la fiabilité du contexte. La réponse finale est sélectionnée en combinant le verdict avec la confiance du modèle. Les expériences sur le benchmark ClashEval démontrent que SR-DCR améliore systématiquement la robustesse face à un contexte trompeur tout en maintenant la précision sur les entrées fiables, surpassant à la fois les débats classiques et les bases de référence basées uniquement sur la confiance, avec un surcoût computationnel minimal. Le code est disponible à l'adresse https://github.com/smiles724/Self-Reflective-Debates.

English

Large language models frequently encounter conflicts between their parametric knowledge and contextual input, often resulting in factual inconsistencies or hallucinations. We propose Self-Reflective Debate for Contextual Reliability (SR-DCR), a lightweight framework that integrates token-level self-confidence with an asymmetric multi-agent debate to adjudicate such conflicts. A critic, deprived of context, challenges a defender who argues from the given passage; a judge model evaluates the debate and determines the context's reliability. The final answer is selected by combining the verdict with model confidence. Experiments on the ClashEval benchmark demonstrate that SR-DCR consistently enhances robustness to misleading context while maintaining accuracy on trustworthy inputs, outperforming both classical debate and confidence-only baselines with minimal computational overhead. The code is available at https://github.com/smiles724/Self-Reflective-Debates.

Quand faire confiance au contexte : Débats autoréflexifs sur la fiabilité du contexte

When to Trust Context: Self-Reflective Debates for Context Reliability

papers.abstract

Support