ChatPaper.aiChatPaper

Wann Kontext zu vertrauen ist: Selbstreflexive Debatten zur Zuverlässigkeit von Kontext

When to Trust Context: Self-Reflective Debates for Context Reliability

June 6, 2025
Autoren: Zeqi Zhou, Fang Wu, Shayan Talaei, Haokai Zhao, Cheng Meixin, Tinson Xu, Amin Saberi, Yejin Choi
cs.AI

Zusammenfassung

Große Sprachmodelle stoßen häufig auf Konflikte zwischen ihrem parametrischen Wissen und kontextuellen Eingaben, was oft zu faktischen Inkonsistenzen oder Halluzinationen führt. Wir schlagen Self-Reflective Debate for Contextual Reliability (SR-DCR) vor, ein leichtgewichtiges Framework, das token-basierte Selbstsicherheit mit einer asymmetrischen Multi-Agenten-Debatte integriert, um solche Konflikte zu entscheiden. Ein Kritiker, der ohne Kontext agiert, stellt einen Verteidiger in Frage, der auf der Grundlage des gegebenen Textes argumentiert; ein Richtermodell bewertet die Debatte und bestimmt die Zuverlässigkeit des Kontextes. Die endgültige Antwort wird durch die Kombination des Urteils mit der Modellsicherheit ausgewählt. Experimente auf dem ClashEval-Benchmark zeigen, dass SR-DCR die Robustheit gegenüber irreführendem Kontext konsequent verbessert, während die Genauigkeit bei vertrauenswürdigen Eingaben erhalten bleibt, und sowohl klassische Debatten als auch rein sicherheitsbasierte Ansätze mit minimalem Rechenaufwand übertrifft. Der Code ist verfügbar unter https://github.com/smiles724/Self-Reflective-Debates.
English
Large language models frequently encounter conflicts between their parametric knowledge and contextual input, often resulting in factual inconsistencies or hallucinations. We propose Self-Reflective Debate for Contextual Reliability (SR-DCR), a lightweight framework that integrates token-level self-confidence with an asymmetric multi-agent debate to adjudicate such conflicts. A critic, deprived of context, challenges a defender who argues from the given passage; a judge model evaluates the debate and determines the context's reliability. The final answer is selected by combining the verdict with model confidence. Experiments on the ClashEval benchmark demonstrate that SR-DCR consistently enhances robustness to misleading context while maintaining accuracy on trustworthy inputs, outperforming both classical debate and confidence-only baselines with minimal computational overhead. The code is available at https://github.com/smiles724/Self-Reflective-Debates.
PDF12June 12, 2025