ChatPaper.aiChatPaper

Les modèles de langage préfèrent ce qu'ils connaissent : estimation de confiance relative via les préférences de confiance.

Language Models Prefer What They Know: Relative Confidence Estimation via Confidence Preferences

February 3, 2025
Auteurs: Vaishnavi Shrivastava, Ananya Kumar, Percy Liang
cs.AI

Résumé

Les modèles de langage (LM) devraient fournir des estimations de confiance fiables pour aider les utilisateurs à détecter les erreurs dans leurs sorties et à se référer à des experts humains lorsque nécessaire. Demander à un modèle de langage d'évaluer sa confiance ("Évaluez votre confiance de 0 à 1.") est une façon naturelle d'évaluer son incertitude. Cependant, les modèles ont du mal à fournir des évaluations absolues de confiance (c'est-à-dire juger de la confiance en répondant à une question indépendamment des autres questions) et les scores grossiers qu'ils produisent ne sont pas utiles pour évaluer la justesse de leurs réponses. Nous proposons une estimation de la confiance relative, où nous confrontons des questions les unes aux autres et demandons au modèle de faire des jugements relatifs de confiance ("Dans quelle question êtes-vous le plus confiant pour répondre correctement?"). En traitant chaque question comme un "joueur" dans une série de confrontations contre d'autres questions et les préférences du modèle comme résultats de match, nous pouvons utiliser des méthodes d'agrégation de classement comme le classement Elo et Bradley-Terry pour traduire les préférences de confiance du modèle en scores de confiance. Nous évaluons l'estimation de la confiance relative par rapport à l'estimation de la confiance absolue et les méthodes de confiance auto-consistante sur cinq modèles de pointe - GPT-4, GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet et Llama 3.1 405B - sur 14 tâches exigeantes de questions-réponses en STEM, sciences sociales et raisonnement de bon sens. Nos résultats démontrent que l'estimation de la confiance relative fournit de manière cohérente des scores de confiance plus fiables que l'estimation de la confiance absolue, avec des gains moyens de 3,5% dans l'AUC de classification sélective par rapport aux méthodes d'estimation de la confiance absolue directe et de 1,7% par rapport aux approches d'auto-consistance sur l'ensemble des modèles et des ensembles de données.
English
Language models (LMs) should provide reliable confidence estimates to help users detect mistakes in their outputs and defer to human experts when necessary. Asking a language model to assess its confidence ("Score your confidence from 0-1.") is a natural way of evaluating its uncertainty. However, models struggle to provide absolute assessments of confidence (i.e. judging confidence in answering a question independent of other questions) and the coarse-grained scores they produce are not useful for evaluating the correctness of their answers. We propose relative confidence estimation, where we match up questions against each other and ask the model to make relative judgments of confidence ("Which question are you more confident in answering correctly?"). Treating each question as a "player" in a series of matchups against other questions and the model's preferences as match outcomes, we can use rank aggregation methods like Elo rating and Bradley-Terry to translate the model's confidence preferences into confidence scores. We evaluate relative confidence estimation against absolute confidence estimation and self-consistency confidence methods on five state-of-the-art LMs -- GPT-4, GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet, and Llama 3.1 405B -- across 14 challenging STEM, social science, and commonsense reasoning question answering tasks. Our results demonstrate that relative confidence estimation consistently provides more reliable confidence scores than absolute confidence estimation, with average gains of 3.5% in selective classification AUC over direct absolute confidence estimation methods and 1.7% over self-consistency approaches across all models and datasets.

Summary

AI-Generated Summary

PDF42February 4, 2025