ChatPaper.aiChatPaper

Le raisonnement mutuel renforce les capacités de résolution de problèmes des petits modèles de langage (LLM).

Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers

August 12, 2024
Auteurs: Zhenting Qi, Mingyuan Ma, Jiahang Xu, Li Lyna Zhang, Fan Yang, Mao Yang
cs.AI

Résumé

Cet article présente rStar, une approche de raisonnement mutuel par auto-jeu qui améliore significativement les capacités de raisonnement des petits modèles de langage (SLMs) sans nécessiter de fine-tuning ou de modèles supérieurs. rStar découple le raisonnement en un processus mutuel de génération-discrimination par auto-jeu. Tout d'abord, un SLM cible enrichit la recherche arborescente de Monte Carlo (MCTS) avec un ensemble varié d'actions de raisonnement similaires à celles des humains pour construire des trajectoires de raisonnement de meilleure qualité. Ensuite, un autre SLM, aux capacités similaires au SLM cible, agit comme discriminateur pour vérifier chaque trajectoire générée par le SLM cible. Les trajectoires de raisonnement mutuellement validées sont considérées comme mutuellement cohérentes, et donc plus susceptibles d'être correctes. Des expériences approfondies sur cinq SLMs démontrent que rStar peut résoudre efficacement divers problèmes de raisonnement, notamment GSM8K, GSM-Hard, MATH, SVAMP et StrategyQA. De manière remarquable, rStar améliore la précision sur GSM8K de 12,51 % à 63,91 % pour LLaMA2-7B, de 36,46 % à 81,88 % pour Mistral-7B, et de 74,53 % à 91,13 % pour LLaMA3-8B-Instruct. Le code sera disponible à l'adresse https://github.com/zhentingqi/rStar.
English
This paper introduces rStar, a self-play mutual reasoning approach that significantly improves reasoning capabilities of small language models (SLMs) without fine-tuning or superior models. rStar decouples reasoning into a self-play mutual generation-discrimination process. First, a target SLM augments the Monte Carlo Tree Search (MCTS) with a rich set of human-like reasoning actions to construct higher quality reasoning trajectories. Next, another SLM, with capabilities similar to the target SLM, acts as a discriminator to verify each trajectory generated by the target SLM. The mutually agreed reasoning trajectories are considered mutual consistent, thus are more likely to be correct. Extensive experiments across five SLMs demonstrate rStar can effectively solve diverse reasoning problems, including GSM8K, GSM-Hard, MATH, SVAMP, and StrategyQA. Remarkably, rStar boosts GSM8K accuracy from 12.51% to 63.91% for LLaMA2-7B, from 36.46% to 81.88% for Mistral-7B, from 74.53% to 91.13% for LLaMA3-8B-Instruct. Code will be available at https://github.com/zhentingqi/rStar.

Summary

AI-Generated Summary

PDF739November 28, 2024