ChatPaper.aiChatPaper

SelfCheck: Het gebruik van LLMs om hun eigen stapsgewijze redenering zonder voorafgaande training te controleren

SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning

August 1, 2023
Auteurs: Ning Miao, Yee Whye Teh, Tom Rainforth
cs.AI

Samenvatting

De recente vooruitgang in grote taalmmodellen (LLM's), met name de uitvinding van chain-of-thought (CoT) prompting, maakt het mogelijk om redeneerproblemen op te lossen. Echter, zelfs de krachtigste LLM's hebben nog steeds moeite met complexere problemen die niet-lineair denken en meerstapsredenering vereisen. In dit werk onderzoeken we of LLM's de mogelijkheid hebben om hun eigen fouten te herkennen, zonder gebruik te maken van externe bronnen. In het bijzonder onderzoeken we of ze kunnen worden gebruikt om individuele fouten binnen een stapsgewijze redenering te identificeren. Hiertoe stellen we een zero-shot verificatieschema voor om dergelijke fouten te herkennen. Vervolgens gebruiken we dit verificatieschema om de prestaties bij vraag-antwoordtaken te verbeteren, door het in te zetten voor gewogen stemmen op verschillende gegenereerde antwoorden. We testen de methode op drie wiskundedatasets—GSM8K, MathQA en MATH—en constateren dat deze met succes fouten herkent en daardoor de uiteindelijke voorspellende prestaties verbetert.
English
The recent progress in large language models (LLMs), especially the invention of chain-of-thoughts (CoT) prompting, makes it possible to solve reasoning problems. However, even the strongest LLMs are still struggling with more complicated problems that require non-linear thinking and multi-step reasoning. In this work, we explore whether LLMs have the ability to recognize their own errors, without resorting to external resources. In particular, we investigate whether they can be used to identify individual errors within a step-by-step reasoning. To this end, we propose a zero-shot verification scheme to recognize such errors. We then use this verification scheme to improve question-answering performance, by using it to perform weighted voting on different generated answers. We test the method on three math datasets-GSM8K, MathQA, and MATH-and find that it successfully recognizes errors and, in turn, increases final predictive performance.
PDF230December 15, 2024