ChatPaper.aiChatPaper

Domande a Scelta Multipla: Il Ragionamento Rende i Grandi Modelli Linguistici (LLM) Più Sicuri di Sé Anche Quando Si Sbagliano

Multiple Choice Questions: Reasoning Makes Large Language Models (LLMs) More Self-Confident Even When They Are Wrong

January 16, 2025
Autori: Tairan Fu, Javier Conde, Gonzalo Martínez, María Grandury, Pedro Reviriego
cs.AI

Abstract

Uno dei metodi più ampiamente utilizzati per valutare i Modelli Linguaggio con Ampia Visione (LLM) sono i test a scelta multipla (MCQ). I benchmark MCQ consentono di testare la conoscenza dei LLM su quasi ogni argomento su larga scala poiché i risultati possono essere elaborati automaticamente. Per aiutare il LLM a rispondere, possono essere inclusi alcuni esempi chiamati poche istanze nella richiesta. Inoltre, al LLM può essere chiesto di rispondere direttamente con l'opzione selezionata o di fornire prima la motivazione e poi la risposta selezionata, noto come catena di pensiero. Oltre a verificare se la risposta selezionata è corretta, la valutazione può esaminare la probabilità stimata dal LLM della sua risposta come indicazione della fiducia del LLM nella risposta. In questo articolo, studiamo come la fiducia del LLM nella sua risposta dipende dal fatto che al modello sia stato chiesto di rispondere direttamente o di fornire la motivazione prima di rispondere. I risultati della valutazione delle domande su una vasta gamma di argomenti in sette modelli diversi mostrano che i LLM sono più fiduciosi nelle loro risposte quando forniscono la motivazione prima della risposta. Ciò avviene indipendentemente dal fatto che la risposta selezionata sia corretta. La nostra ipotesi è che questo comportamento sia dovuto alla motivazione che modifica la probabilità della risposta selezionata, poiché il LLM predice la risposta in base alla domanda di input e alla motivazione che supporta la selezione effettuata. Pertanto, le probabilità stimate dai LLM sembrano avere limitazioni intrinseche che dovrebbero essere comprese per poterle utilizzare nelle procedure di valutazione. È interessante notare che lo stesso comportamento è stato osservato negli esseri umani, per i quali spiegare una risposta aumenta la fiducia nella sua correttezza.
English
One of the most widely used methods to evaluate LLMs are Multiple Choice Question (MCQ) tests. MCQ benchmarks enable the testing of LLM knowledge on almost any topic at scale as the results can be processed automatically. To help the LLM answer, a few examples called few shots can be included in the prompt. Moreover, the LLM can be asked to answer the question directly with the selected option or to first provide the reasoning and then the selected answer, which is known as chain of thought. In addition to checking whether the selected answer is correct, the evaluation can look at the LLM-estimated probability of its response as an indication of the confidence of the LLM in the response. In this paper, we study how the LLM confidence in its answer depends on whether the model has been asked to answer directly or to provide the reasoning before answering. The results of the evaluation of questions on a wide range of topics in seven different models show that LLMs are more confident in their answers when they provide reasoning before the answer. This occurs regardless of whether the selected answer is correct. Our hypothesis is that this behavior is due to the reasoning that modifies the probability of the selected answer, as the LLM predicts the answer based on the input question and the reasoning that supports the selection made. Therefore, LLM estimated probabilities seem to have intrinsic limitations that should be understood in order to use them in evaluation procedures. Interestingly, the same behavior has been observed in humans, for whom explaining an answer increases confidence in its correctness.

Summary

AI-Generated Summary

PDF342January 20, 2025