ChatPaper.aiChatPaper

SelfCheck: Uso de LLMs para Verificar en Cero-Shot su Propio Razonamiento Paso a Paso

SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning

August 1, 2023
Autores: Ning Miao, Yee Whye Teh, Tom Rainforth
cs.AI

Resumen

Los recientes avances en los modelos de lenguaje de gran escala (LLMs), especialmente la invención del prompting de cadena de pensamientos (CoT), han hecho posible resolver problemas de razonamiento. Sin embargo, incluso los LLMs más potentes aún tienen dificultades con problemas más complejos que requieren pensamiento no lineal y razonamiento de múltiples pasos. En este trabajo, exploramos si los LLMs tienen la capacidad de reconocer sus propios errores, sin recurrir a recursos externos. En particular, investigamos si pueden utilizarse para identificar errores individuales dentro de un razonamiento paso a paso. Para ello, proponemos un esquema de verificación zero-shot para reconocer dichos errores. Luego, utilizamos este esquema de verificación para mejorar el rendimiento en tareas de preguntas y respuestas, empleándolo para realizar votación ponderada entre diferentes respuestas generadas. Probamos el método en tres conjuntos de datos matemáticos—GSM8K, MathQA y MATH—y encontramos que reconoce errores con éxito y, a su vez, aumenta el rendimiento predictivo final.
English
The recent progress in large language models (LLMs), especially the invention of chain-of-thoughts (CoT) prompting, makes it possible to solve reasoning problems. However, even the strongest LLMs are still struggling with more complicated problems that require non-linear thinking and multi-step reasoning. In this work, we explore whether LLMs have the ability to recognize their own errors, without resorting to external resources. In particular, we investigate whether they can be used to identify individual errors within a step-by-step reasoning. To this end, we propose a zero-shot verification scheme to recognize such errors. We then use this verification scheme to improve question-answering performance, by using it to perform weighted voting on different generated answers. We test the method on three math datasets-GSM8K, MathQA, and MATH-and find that it successfully recognizes errors and, in turn, increases final predictive performance.
PDF230December 15, 2024