SelfCheck: Utilizzo di LLM per Verificare in Modalità Zero-Shot il Proprio Ragionamento Passo-Passo
SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning
August 1, 2023
Autori: Ning Miao, Yee Whye Teh, Tom Rainforth
cs.AI
Abstract
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM), in particolare l'invenzione del prompting a catena di pensieri (CoT), hanno reso possibile risolvere problemi di ragionamento. Tuttavia, anche i più potenti LLM continuano a lottare con problemi più complessi che richiedono pensiero non lineare e ragionamento a più passaggi. In questo lavoro, esploriamo se gli LLM hanno la capacità di riconoscere i propri errori, senza ricorrere a risorse esterne. In particolare, indaghiamo se possono essere utilizzati per identificare errori individuali all'interno di un ragionamento passo-passo. A tal fine, proponiamo uno schema di verifica zero-shot per riconoscere tali errori. Utilizziamo quindi questo schema di verifica per migliorare le prestazioni nel rispondere a domande, applicandolo per eseguire un voto ponderato su diverse risposte generate. Testiamo il metodo su tre dataset matematici—GSM8K, MathQA e MATH—e scopriamo che riconosce con successo gli errori e, di conseguenza, aumenta le prestazioni predittive finali.
English
The recent progress in large language models (LLMs), especially the invention
of chain-of-thoughts (CoT) prompting, makes it possible to solve reasoning
problems. However, even the strongest LLMs are still struggling with more
complicated problems that require non-linear thinking and multi-step reasoning.
In this work, we explore whether LLMs have the ability to recognize their own
errors, without resorting to external resources. In particular, we investigate
whether they can be used to identify individual errors within a step-by-step
reasoning. To this end, we propose a zero-shot verification scheme to recognize
such errors. We then use this verification scheme to improve question-answering
performance, by using it to perform weighted voting on different generated
answers. We test the method on three math datasets-GSM8K, MathQA, and MATH-and
find that it successfully recognizes errors and, in turn, increases final
predictive performance.