SelfCheck: Nutzung von LLMs zur Null-Shot-Überprüfung ihrer eigenen schrittweisen Argumentation
SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning
August 1, 2023
Autoren: Ning Miao, Yee Whye Teh, Tom Rainforth
cs.AI
Zusammenfassung
Die jüngsten Fortschritte bei großen Sprachmodellen (LLMs), insbesondere die Erfindung des Chain-of-Thoughts (CoT)-Promptings, ermöglichen es, logische Probleme zu lösen. Allerdings kämpfen selbst die leistungsstärksten LLMs noch mit komplexeren Problemen, die nicht-lineares Denken und mehrstufige Schlussfolgerungen erfordern. In dieser Arbeit untersuchen wir, ob LLMs die Fähigkeit besitzen, ihre eigenen Fehler zu erkennen, ohne auf externe Ressourcen zurückzugreifen. Insbesondere erforschen wir, ob sie dazu verwendet werden können, individuelle Fehler innerhalb einer schrittweisen Argumentation zu identifizieren. Zu diesem Zweck schlagen wir ein Zero-Shot-Verifikationsschema vor, um solche Fehler zu erkennen. Anschließend nutzen wir dieses Verifikationsschema, um die Leistung bei der Beantwortung von Fragen zu verbessern, indem wir es für eine gewichtete Abstimmung zwischen verschiedenen generierten Antworten verwenden. Wir testen die Methode an drei mathematischen Datensätzen – GSM8K, MathQA und MATH – und stellen fest, dass sie erfolgreich Fehler erkennt und dadurch die endgültige Vorhersageleistung steigert.
English
The recent progress in large language models (LLMs), especially the invention
of chain-of-thoughts (CoT) prompting, makes it possible to solve reasoning
problems. However, even the strongest LLMs are still struggling with more
complicated problems that require non-linear thinking and multi-step reasoning.
In this work, we explore whether LLMs have the ability to recognize their own
errors, without resorting to external resources. In particular, we investigate
whether they can be used to identify individual errors within a step-by-step
reasoning. To this end, we propose a zero-shot verification scheme to recognize
such errors. We then use this verification scheme to improve question-answering
performance, by using it to perform weighted voting on different generated
answers. We test the method on three math datasets-GSM8K, MathQA, and MATH-and
find that it successfully recognizes errors and, in turn, increases final
predictive performance.