Quando Fidarsi del Contesto: Dibattiti Auto-Riflessivi per l'Affidabilità del Contesto
When to Trust Context: Self-Reflective Debates for Context Reliability
June 6, 2025
Autori: Zeqi Zhou, Fang Wu, Shayan Talaei, Haokai Zhao, Cheng Meixin, Tinson Xu, Amin Saberi, Yejin Choi
cs.AI
Abstract
I modelli linguistici di grandi dimensioni incontrano frequentemente conflitti tra la loro conoscenza parametrica e l'input contestuale, spesso risultando in inconsistenze fattuali o allucinazioni. Proponiamo il Dibattito Auto-Riflessivo per l'Affidabilità Contestuale (SR-DCR), un framework leggero che integra l'autoconfidenza a livello di token con un dibattito asimmetrico multi-agente per risolvere tali conflitti. Un critico, privato del contesto, sfida un difensore che argomenta a partire dal passaggio fornito; un modello giudice valuta il dibattito e determina l'affidabilità del contesto. La risposta finale viene selezionata combinando il verdetto con la confidenza del modello. Esperimenti sul benchmark ClashEval dimostrano che SR-DCR migliora costantemente la robustezza ai contesti fuorvianti mantenendo l'accuratezza sugli input affidabili, superando sia i dibattiti classici che i baseline basati solo sulla confidenza, con un sovraccarico computazionale minimo. Il codice è disponibile all'indirizzo https://github.com/smiles724/Self-Reflective-Debates.
English
Large language models frequently encounter conflicts between their parametric
knowledge and contextual input, often resulting in factual inconsistencies or
hallucinations. We propose Self-Reflective Debate for Contextual Reliability
(SR-DCR), a lightweight framework that integrates token-level self-confidence
with an asymmetric multi-agent debate to adjudicate such conflicts. A critic,
deprived of context, challenges a defender who argues from the given passage; a
judge model evaluates the debate and determines the context's reliability. The
final answer is selected by combining the verdict with model confidence.
Experiments on the ClashEval benchmark demonstrate that SR-DCR consistently
enhances robustness to misleading context while maintaining accuracy on
trustworthy inputs, outperforming both classical debate and confidence-only
baselines with minimal computational overhead. The code is available at
https://github.com/smiles724/Self-Reflective-Debates.