Questions à choix multiples : Le raisonnement rend les grands modèles de langage (LLM) plus confiants en eux-mêmes même lorsqu'ils ont tort

papers.abstract

L'une des méthodes les plus largement utilisées pour évaluer les LLM sont les tests à choix multiples (TCM). Les référentiels de TCM permettent de tester les connaissances des LLM sur presque n'importe quel sujet à grande échelle car les résultats peuvent être traités automatiquement. Pour aider le LLM à répondre, quelques exemples appelés "quelques exemples" peuvent être inclus dans la consigne. De plus, on peut demander au LLM de répondre directement avec l'option sélectionnée ou de fournir d'abord le raisonnement puis la réponse sélectionnée, ce qui est connu sous le nom de "chaîne de pensée". En plus de vérifier si la réponse sélectionnée est correcte, l'évaluation peut examiner la probabilité estimée par le LLM de sa réponse comme indication de la confiance du LLM dans la réponse. Dans cet article, nous étudions comment la confiance du LLM dans sa réponse dépend du fait que le modèle ait été invité à répondre directement ou à fournir le raisonnement avant de répondre. Les résultats de l'évaluation des questions sur un large éventail de sujets dans sept modèles différents montrent que les LLM sont plus confiants dans leurs réponses lorsqu'ils fournissent un raisonnement avant la réponse. Cela se produit indépendamment de la correction de la réponse sélectionnée. Notre hypothèse est que ce comportement est dû au raisonnement qui modifie la probabilité de la réponse sélectionnée, car le LLM prédit la réponse en fonction de la question d'entrée et du raisonnement qui soutient la sélection effectuée. Par conséquent, il semble que les probabilités estimées par les LLM présentent des limitations intrinsèques qui doivent être comprises pour les utiliser dans les procédures d'évaluation. Fait intéressant, le même comportement a été observé chez les humains, pour qui expliquer une réponse augmente la confiance en sa correction.

English

One of the most widely used methods to evaluate LLMs are Multiple Choice Question (MCQ) tests. MCQ benchmarks enable the testing of LLM knowledge on almost any topic at scale as the results can be processed automatically. To help the LLM answer, a few examples called few shots can be included in the prompt. Moreover, the LLM can be asked to answer the question directly with the selected option or to first provide the reasoning and then the selected answer, which is known as chain of thought. In addition to checking whether the selected answer is correct, the evaluation can look at the LLM-estimated probability of its response as an indication of the confidence of the LLM in the response. In this paper, we study how the LLM confidence in its answer depends on whether the model has been asked to answer directly or to provide the reasoning before answering. The results of the evaluation of questions on a wide range of topics in seven different models show that LLMs are more confident in their answers when they provide reasoning before the answer. This occurs regardless of whether the selected answer is correct. Our hypothesis is that this behavior is due to the reasoning that modifies the probability of the selected answer, as the LLM predicts the answer based on the input question and the reasoning that supports the selection made. Therefore, LLM estimated probabilities seem to have intrinsic limitations that should be understood in order to use them in evaluation procedures. Interestingly, the same behavior has been observed in humans, for whom explaining an answer increases confidence in its correctness.

Questions à choix multiples : Le raisonnement rend les grands modèles de langage (LLM) plus confiants en eux-mêmes même lorsqu'ils ont tort

Multiple Choice Questions: Reasoning Makes Large Language Models (LLMs) More Self-Confident Even When They Are Wrong

papers.abstract

Support