Estimativa de Confiança para LLMs em Interações Multiturno

Resumo

Embora a estimativa de confiança seja uma direção promissora para mitigar alucinações em Modelos de Linguagem de Grande Porte (LLMs), a pesquisa atual concentra-se predominantemente em configurações de turno único. A dinâmica da confiança do modelo em conversas multi-turno, onde o contexto se acumula e a ambiguidade é progressivamente resolvida, permanece amplamente inexplorada. A estimativa de confiança confiável em cenários multi-turno é crítica para muitas aplicações subsequentes, como agentes autónomos e sistemas com intervenção humana. Este trabalho apresenta o primeiro estudo sistemático sobre a estimativa de confiança em interações multi-turno, estabelecendo um quadro formal de avaliação baseado em dois desideratos fundamentais: calibração por turno e monotonicidade da confiança à medida que mais informação se torna disponível. Para facilitar isto, introduzimos novas métricas, incluindo um Erro Esperado de Calibração normalizado por comprimento (InfoECE), e um novo paradigma "Adivinhador com Dicas" para gerar conjuntos de dados de avaliação controlados. As nossas experiências revelam que as técnicas de confiança amplamente utilizadas têm dificuldades com a calibração e a monotonicidade em diálogos multi-turno. Propomos P(Suficiente), uma sonda baseada em *logits* que atinge um desempenho comparativamente melhor, embora a tarefa esteja longe de estar resolvida. O nosso trabalho fornece uma metodologia fundamental para desenvolver agentes conversacionais mais confiáveis e seguros.

English

While confidence estimation is a promising direction for mitigating hallucinations in Large Language Models (LLMs), current research dominantly focuses on single-turn settings. The dynamics of model confidence in multi-turn conversations, where context accumulates and ambiguity is progressively resolved, remain largely unexplored. Reliable confidence estimation in multi-turn settings is critical for many downstream applications, such as autonomous agents and human-in-the-loop systems. This work presents the first systematic study of confidence estimation in multi-turn interactions, establishing a formal evaluation framework grounded in two key desiderata: per-turn calibration and monotonicity of confidence as more information becomes available. To facilitate this, we introduce novel metrics, including a length-normalized Expected Calibration Error (InfoECE), and a new "Hinter-Guesser" paradigm for generating controlled evaluation datasets. Our experiments reveal that widely-used confidence techniques struggle with calibration and monotonicity in multi-turn dialogues. We propose P(Sufficient), a logit-based probe that achieves comparatively better performance, although the task remains far from solved. Our work provides a foundational methodology for developing more reliable and trustworthy conversational agents.

Estimativa de Confiança para LLMs em Interações Multiturno

Confidence Estimation for LLMs in Multi-turn Interactions

Resumo

Support