Cuándo Confiar en el Contexto: Debates Autorreflexivos sobre la Fiabilidad del Contexto
When to Trust Context: Self-Reflective Debates for Context Reliability
June 6, 2025
Autores: Zeqi Zhou, Fang Wu, Shayan Talaei, Haokai Zhao, Cheng Meixin, Tinson Xu, Amin Saberi, Yejin Choi
cs.AI
Resumen
Los modelos de lenguaje de gran escala frecuentemente enfrentan conflictos entre su conocimiento paramétrico y la entrada contextual, lo que a menudo resulta en inconsistencias factuales o alucinaciones. Proponemos el Debate Autoreflexivo para la Confiabilidad Contextual (SR-DCR, por sus siglas en inglés), un marco ligero que integra la autoconfianza a nivel de token con un debate asimétrico multiagente para resolver dichos conflictos. Un crítico, privado de contexto, desafía a un defensor que argumenta a partir del pasaje dado; un modelo juez evalúa el debate y determina la confiabilidad del contexto. La respuesta final se selecciona combinando el veredicto con la confianza del modelo. Los experimentos en el punto de referencia ClashEval demuestran que SR-DCR mejora consistentemente la robustez frente a contextos engañosos, manteniendo la precisión en entradas confiables, superando tanto los debates clásicos como las líneas base basadas únicamente en la confianza, con un mínimo sobrecosto computacional. El código está disponible en https://github.com/smiles724/Self-Reflective-Debates.
English
Large language models frequently encounter conflicts between their parametric
knowledge and contextual input, often resulting in factual inconsistencies or
hallucinations. We propose Self-Reflective Debate for Contextual Reliability
(SR-DCR), a lightweight framework that integrates token-level self-confidence
with an asymmetric multi-agent debate to adjudicate such conflicts. A critic,
deprived of context, challenges a defender who argues from the given passage; a
judge model evaluates the debate and determines the context's reliability. The
final answer is selected by combining the verdict with model confidence.
Experiments on the ClashEval benchmark demonstrate that SR-DCR consistently
enhances robustness to misleading context while maintaining accuracy on
trustworthy inputs, outperforming both classical debate and confidence-only
baselines with minimal computational overhead. The code is available at
https://github.com/smiles724/Self-Reflective-Debates.