ChatPaper.aiChatPaper

SelfCheck: Usando LLMs para Verificar em Zero-Shot Seu Próprio Raciocínio Passo a Passo

SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning

August 1, 2023
Autores: Ning Miao, Yee Whye Teh, Tom Rainforth
cs.AI

Resumo

O recente avanço em modelos de linguagem de grande escala (LLMs), especialmente a invenção do prompting de cadeia de pensamentos (CoT), tornou possível resolver problemas de raciocínio. No entanto, mesmo os LLMs mais poderosos ainda enfrentam dificuldades com problemas mais complexos que exigem pensamento não linear e raciocínio em múltiplas etapas. Neste trabalho, exploramos se os LLMs têm a capacidade de reconhecer seus próprios erros, sem recorrer a recursos externos. Em particular, investigamos se eles podem ser usados para identificar erros individuais dentro de um raciocínio passo a passo. Para isso, propomos um esquema de verificação zero-shot para reconhecer tais erros. Em seguida, usamos esse esquema de verificação para melhorar o desempenho em tarefas de perguntas e respostas, utilizando-o para realizar uma votação ponderada em diferentes respostas geradas. Testamos o método em três conjuntos de dados matemáticos—GSM8K, MathQA e MATH—e descobrimos que ele reconhece erros com sucesso e, por sua vez, aumenta o desempenho preditivo final.
English
The recent progress in large language models (LLMs), especially the invention of chain-of-thoughts (CoT) prompting, makes it possible to solve reasoning problems. However, even the strongest LLMs are still struggling with more complicated problems that require non-linear thinking and multi-step reasoning. In this work, we explore whether LLMs have the ability to recognize their own errors, without resorting to external resources. In particular, we investigate whether they can be used to identify individual errors within a step-by-step reasoning. To this end, we propose a zero-shot verification scheme to recognize such errors. We then use this verification scheme to improve question-answering performance, by using it to perform weighted voting on different generated answers. We test the method on three math datasets-GSM8K, MathQA, and MATH-and find that it successfully recognizes errors and, in turn, increases final predictive performance.
PDF230December 15, 2024