ChatPaper.aiChatPaper

Wanneer Context te Vertrouwen: Zelfreflecterende Discussies voor Contextuele Betrouwbaarheid

When to Trust Context: Self-Reflective Debates for Context Reliability

June 6, 2025
Auteurs: Zeqi Zhou, Fang Wu, Shayan Talaei, Haokai Zhao, Cheng Meixin, Tinson Xu, Amin Saberi, Yejin Choi
cs.AI

Samenvatting

Grote taalmodellen komen vaak conflicten tegen tussen hun parametrische kennis en contextuele invoer, wat regelmatig resulteert in feitelijke inconsistenties of hallucinaties. Wij stellen Self-Reflective Debate for Contextual Reliability (SR-DCR) voor, een lichtgewicht raamwerk dat token-level zelfvertrouwen integreert met een asymmetrisch multi-agent debat om dergelijke conflicten te beslechten. Een criticus, verstoken van context, daagt een verdediger uit die argumenteert vanuit het gegeven fragment; een rechtermodel beoordeelt het debat en bepaalt de betrouwbaarheid van de context. Het uiteindelijke antwoord wordt geselecteerd door de uitspraak te combineren met het vertrouwen van het model. Experimenten op de ClashEval-benchmark tonen aan dat SR-DCR consistent de robuustheid tegen misleidende context verbetert, terwijl de nauwkeurigheid op betrouwbare invoer behouden blijft, en zowel klassieke debatten als vertrouwensgerichte basislijnen overtreft met minimale rekenkundige overhead. De code is beschikbaar op https://github.com/smiles724/Self-Reflective-Debates.
English
Large language models frequently encounter conflicts between their parametric knowledge and contextual input, often resulting in factual inconsistencies or hallucinations. We propose Self-Reflective Debate for Contextual Reliability (SR-DCR), a lightweight framework that integrates token-level self-confidence with an asymmetric multi-agent debate to adjudicate such conflicts. A critic, deprived of context, challenges a defender who argues from the given passage; a judge model evaluates the debate and determines the context's reliability. The final answer is selected by combining the verdict with model confidence. Experiments on the ClashEval benchmark demonstrate that SR-DCR consistently enhances robustness to misleading context while maintaining accuracy on trustworthy inputs, outperforming both classical debate and confidence-only baselines with minimal computational overhead. The code is available at https://github.com/smiles724/Self-Reflective-Debates.
PDF12June 12, 2025