ChatPaper.aiChatPaper

SelfCheck: Utilizzo di LLM per Verificare in Modalità Zero-Shot il Proprio Ragionamento Passo-Passo

SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning

August 1, 2023
Autori: Ning Miao, Yee Whye Teh, Tom Rainforth
cs.AI

Abstract

I recenti progressi nei modelli linguistici di grandi dimensioni (LLM), in particolare l'invenzione del prompting a catena di pensieri (CoT), hanno reso possibile risolvere problemi di ragionamento. Tuttavia, anche i più potenti LLM continuano a lottare con problemi più complessi che richiedono pensiero non lineare e ragionamento a più passaggi. In questo lavoro, esploriamo se gli LLM hanno la capacità di riconoscere i propri errori, senza ricorrere a risorse esterne. In particolare, indaghiamo se possono essere utilizzati per identificare errori individuali all'interno di un ragionamento passo-passo. A tal fine, proponiamo uno schema di verifica zero-shot per riconoscere tali errori. Utilizziamo quindi questo schema di verifica per migliorare le prestazioni nel rispondere a domande, applicandolo per eseguire un voto ponderato su diverse risposte generate. Testiamo il metodo su tre dataset matematici—GSM8K, MathQA e MATH—e scopriamo che riconosce con successo gli errori e, di conseguenza, aumenta le prestazioni predittive finali.
English
The recent progress in large language models (LLMs), especially the invention of chain-of-thoughts (CoT) prompting, makes it possible to solve reasoning problems. However, even the strongest LLMs are still struggling with more complicated problems that require non-linear thinking and multi-step reasoning. In this work, we explore whether LLMs have the ability to recognize their own errors, without resorting to external resources. In particular, we investigate whether they can be used to identify individual errors within a step-by-step reasoning. To this end, we propose a zero-shot verification scheme to recognize such errors. We then use this verification scheme to improve question-answering performance, by using it to perform weighted voting on different generated answers. We test the method on three math datasets-GSM8K, MathQA, and MATH-and find that it successfully recognizes errors and, in turn, increases final predictive performance.
PDF230December 15, 2024