Questions à choix multiples : Le raisonnement rend les grands modèles de langage (LLM) plus confiants en eux-mêmes même lorsqu'ils ont tort
Multiple Choice Questions: Reasoning Makes Large Language Models (LLMs) More Self-Confident Even When They Are Wrong
January 16, 2025
Auteurs: Tairan Fu, Javier Conde, Gonzalo Martínez, María Grandury, Pedro Reviriego
cs.AI
Résumé
L'une des méthodes les plus largement utilisées pour évaluer les LLM sont les tests à choix multiples (TCM). Les référentiels de TCM permettent de tester les connaissances des LLM sur presque n'importe quel sujet à grande échelle car les résultats peuvent être traités automatiquement. Pour aider le LLM à répondre, quelques exemples appelés "quelques exemples" peuvent être inclus dans la consigne. De plus, on peut demander au LLM de répondre directement avec l'option sélectionnée ou de fournir d'abord le raisonnement puis la réponse sélectionnée, ce qui est connu sous le nom de "chaîne de pensée". En plus de vérifier si la réponse sélectionnée est correcte, l'évaluation peut examiner la probabilité estimée par le LLM de sa réponse comme indication de la confiance du LLM dans la réponse. Dans cet article, nous étudions comment la confiance du LLM dans sa réponse dépend du fait que le modèle ait été invité à répondre directement ou à fournir le raisonnement avant de répondre. Les résultats de l'évaluation des questions sur un large éventail de sujets dans sept modèles différents montrent que les LLM sont plus confiants dans leurs réponses lorsqu'ils fournissent un raisonnement avant la réponse. Cela se produit indépendamment de la correction de la réponse sélectionnée. Notre hypothèse est que ce comportement est dû au raisonnement qui modifie la probabilité de la réponse sélectionnée, car le LLM prédit la réponse en fonction de la question d'entrée et du raisonnement qui soutient la sélection effectuée. Par conséquent, il semble que les probabilités estimées par les LLM présentent des limitations intrinsèques qui doivent être comprises pour les utiliser dans les procédures d'évaluation. Fait intéressant, le même comportement a été observé chez les humains, pour qui expliquer une réponse augmente la confiance en sa correction.
English
One of the most widely used methods to evaluate LLMs are Multiple Choice
Question (MCQ) tests. MCQ benchmarks enable the testing of LLM knowledge on
almost any topic at scale as the results can be processed automatically. To
help the LLM answer, a few examples called few shots can be included in the
prompt. Moreover, the LLM can be asked to answer the question directly with the
selected option or to first provide the reasoning and then the selected answer,
which is known as chain of thought. In addition to checking whether the
selected answer is correct, the evaluation can look at the LLM-estimated
probability of its response as an indication of the confidence of the LLM in
the response. In this paper, we study how the LLM confidence in its answer
depends on whether the model has been asked to answer directly or to provide
the reasoning before answering. The results of the evaluation of questions on a
wide range of topics in seven different models show that LLMs are more
confident in their answers when they provide reasoning before the answer. This
occurs regardless of whether the selected answer is correct. Our hypothesis is
that this behavior is due to the reasoning that modifies the probability of the
selected answer, as the LLM predicts the answer based on the input question and
the reasoning that supports the selection made. Therefore, LLM estimated
probabilities seem to have intrinsic limitations that should be understood in
order to use them in evaluation procedures. Interestingly, the same behavior
has been observed in humans, for whom explaining an answer increases confidence
in its correctness.Summary
AI-Generated Summary