Quando Confiar no Contexto: Debates Autorreflexivos para Confiabilidade Contextual
When to Trust Context: Self-Reflective Debates for Context Reliability
June 6, 2025
Autores: Zeqi Zhou, Fang Wu, Shayan Talaei, Haokai Zhao, Cheng Meixin, Tinson Xu, Amin Saberi, Yejin Choi
cs.AI
Resumo
Modelos de linguagem de grande escala frequentemente enfrentam conflitos entre seu conhecimento paramétrico e a entrada contextual, muitas vezes resultando em inconsistências factuais ou alucinações. Propomos o Debate Autorreflexivo para Confiabilidade Contextual (SR-DCR, na sigla em inglês), uma estrutura leve que integra a autoconfiança em nível de token com um debate assimétrico entre múltiplos agentes para resolver tais conflitos. Um crítico, privado de contexto, desafia um defensor que argumenta com base na passagem fornecida; um modelo juiz avalia o debate e determina a confiabilidade do contexto. A resposta final é selecionada combinando o veredito com a confiança do modelo. Experimentos no benchmark ClashEval demonstram que o SR-DCR melhora consistentemente a robustez a contextos enganosos, mantendo a precisão em entradas confiáveis, superando tanto os debates clássicos quanto as linhas de base baseadas apenas em confiança, com um custo computacional mínimo. O código está disponível em https://github.com/smiles724/Self-Reflective-Debates.
English
Large language models frequently encounter conflicts between their parametric
knowledge and contextual input, often resulting in factual inconsistencies or
hallucinations. We propose Self-Reflective Debate for Contextual Reliability
(SR-DCR), a lightweight framework that integrates token-level self-confidence
with an asymmetric multi-agent debate to adjudicate such conflicts. A critic,
deprived of context, challenges a defender who argues from the given passage; a
judge model evaluates the debate and determines the context's reliability. The
final answer is selected by combining the verdict with model confidence.
Experiments on the ClashEval benchmark demonstrate that SR-DCR consistently
enhances robustness to misleading context while maintaining accuracy on
trustworthy inputs, outperforming both classical debate and confidence-only
baselines with minimal computational overhead. The code is available at
https://github.com/smiles724/Self-Reflective-Debates.