ChatPaper.aiChatPaper

SelfCheck: Nutzung von LLMs zur Null-Shot-Überprüfung ihrer eigenen schrittweisen Argumentation

SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning

August 1, 2023
Autoren: Ning Miao, Yee Whye Teh, Tom Rainforth
cs.AI

Zusammenfassung

Die jüngsten Fortschritte bei großen Sprachmodellen (LLMs), insbesondere die Erfindung des Chain-of-Thoughts (CoT)-Promptings, ermöglichen es, logische Probleme zu lösen. Allerdings kämpfen selbst die leistungsstärksten LLMs noch mit komplexeren Problemen, die nicht-lineares Denken und mehrstufige Schlussfolgerungen erfordern. In dieser Arbeit untersuchen wir, ob LLMs die Fähigkeit besitzen, ihre eigenen Fehler zu erkennen, ohne auf externe Ressourcen zurückzugreifen. Insbesondere erforschen wir, ob sie dazu verwendet werden können, individuelle Fehler innerhalb einer schrittweisen Argumentation zu identifizieren. Zu diesem Zweck schlagen wir ein Zero-Shot-Verifikationsschema vor, um solche Fehler zu erkennen. Anschließend nutzen wir dieses Verifikationsschema, um die Leistung bei der Beantwortung von Fragen zu verbessern, indem wir es für eine gewichtete Abstimmung zwischen verschiedenen generierten Antworten verwenden. Wir testen die Methode an drei mathematischen Datensätzen – GSM8K, MathQA und MATH – und stellen fest, dass sie erfolgreich Fehler erkennt und dadurch die endgültige Vorhersageleistung steigert.
English
The recent progress in large language models (LLMs), especially the invention of chain-of-thoughts (CoT) prompting, makes it possible to solve reasoning problems. However, even the strongest LLMs are still struggling with more complicated problems that require non-linear thinking and multi-step reasoning. In this work, we explore whether LLMs have the ability to recognize their own errors, without resorting to external resources. In particular, we investigate whether they can be used to identify individual errors within a step-by-step reasoning. To this end, we propose a zero-shot verification scheme to recognize such errors. We then use this verification scheme to improve question-answering performance, by using it to perform weighted voting on different generated answers. We test the method on three math datasets-GSM8K, MathQA, and MATH-and find that it successfully recognizes errors and, in turn, increases final predictive performance.
PDF230December 15, 2024