SelfCheck : Utiliser des LLMs pour vérifier en zero-shot leur propre raisonnement étape par étape
SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning
August 1, 2023
Auteurs: Ning Miao, Yee Whye Teh, Tom Rainforth
cs.AI
Résumé
Les récents progrès des grands modèles de langage (LLMs), en particulier l'invention de l'incitation par chaîne de pensées (CoT), permettent de résoudre des problèmes de raisonnement. Cependant, même les LLMs les plus puissants peinent encore à traiter des problèmes plus complexes nécessitant une pensée non linéaire et un raisonnement en plusieurs étapes. Dans ce travail, nous explorons si les LLMs ont la capacité de reconnaître leurs propres erreurs sans recourir à des ressources externes. Plus précisément, nous étudions s'ils peuvent être utilisés pour identifier des erreurs individuelles dans un raisonnement étape par étape. À cette fin, nous proposons un schéma de vérification zero-shot pour reconnaître de telles erreurs. Nous utilisons ensuite ce schéma de vérification pour améliorer les performances en question-réponse, en l'employant pour effectuer un vote pondéré sur différentes réponses générées. Nous testons la méthode sur trois ensembles de données mathématiques—GSM8K, MathQA et MATH—et constatons qu'elle reconnaît avec succès les erreurs et, par conséquent, améliore les performances prédictives finales.
English
The recent progress in large language models (LLMs), especially the invention
of chain-of-thoughts (CoT) prompting, makes it possible to solve reasoning
problems. However, even the strongest LLMs are still struggling with more
complicated problems that require non-linear thinking and multi-step reasoning.
In this work, we explore whether LLMs have the ability to recognize their own
errors, without resorting to external resources. In particular, we investigate
whether they can be used to identify individual errors within a step-by-step
reasoning. To this end, we propose a zero-shot verification scheme to recognize
such errors. We then use this verification scheme to improve question-answering
performance, by using it to perform weighted voting on different generated
answers. We test the method on three math datasets-GSM8K, MathQA, and MATH-and
find that it successfully recognizes errors and, in turn, increases final
predictive performance.