SelfCheck : Utiliser des LLMs pour vérifier en zero-shot leur propre raisonnement étape par étape

Résumé

Les récents progrès des grands modèles de langage (LLMs), en particulier l'invention de l'incitation par chaîne de pensées (CoT), permettent de résoudre des problèmes de raisonnement. Cependant, même les LLMs les plus puissants peinent encore à traiter des problèmes plus complexes nécessitant une pensée non linéaire et un raisonnement en plusieurs étapes. Dans ce travail, nous explorons si les LLMs ont la capacité de reconnaître leurs propres erreurs sans recourir à des ressources externes. Plus précisément, nous étudions s'ils peuvent être utilisés pour identifier des erreurs individuelles dans un raisonnement étape par étape. À cette fin, nous proposons un schéma de vérification zero-shot pour reconnaître de telles erreurs. Nous utilisons ensuite ce schéma de vérification pour améliorer les performances en question-réponse, en l'employant pour effectuer un vote pondéré sur différentes réponses générées. Nous testons la méthode sur trois ensembles de données mathématiques—GSM8K, MathQA et MATH—et constatons qu'elle reconnaît avec succès les erreurs et, par conséquent, améliore les performances prédictives finales.

English

The recent progress in large language models (LLMs), especially the invention of chain-of-thoughts (CoT) prompting, makes it possible to solve reasoning problems. However, even the strongest LLMs are still struggling with more complicated problems that require non-linear thinking and multi-step reasoning. In this work, we explore whether LLMs have the ability to recognize their own errors, without resorting to external resources. In particular, we investigate whether they can be used to identify individual errors within a step-by-step reasoning. To this end, we propose a zero-shot verification scheme to recognize such errors. We then use this verification scheme to improve question-answering performance, by using it to perform weighted voting on different generated answers. We test the method on three math datasets-GSM8K, MathQA, and MATH-and find that it successfully recognizes errors and, in turn, increases final predictive performance.

SelfCheck : Utiliser des LLMs pour vérifier en zero-shot leur propre raisonnement étape par étape

SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning

Résumé

Support