ChatPaper.aiChatPaper

Gegenseitiges Schlussfolgern macht kleinere LLMs zu stärkeren Problemlösern.

Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers

August 12, 2024
Autoren: Zhenting Qi, Mingyuan Ma, Jiahang Xu, Li Lyna Zhang, Fan Yang, Mao Yang
cs.AI

Zusammenfassung

Dieses Papier stellt rStar vor, einen selbstspielenden gegenseitigen Schlussfolgerungsansatz, der die Schlussfolgerungsfähigkeiten kleiner Sprachmodelle (SLMs) signifikant verbessert, ohne Feinabstimmung oder überlegene Modelle. rStar entkoppelt die Schlussfolgerung in einen selbstspielenden gegenseitigen Generierungs-Diskriminierungsprozess. Zunächst erweitert ein Ziel-SLM die Monte-Carlo-Baumsuche (MCTS) um eine umfangreiche Reihe von menschenähnlichen Schlussfolgerungsaktionen, um qualitativ hochwertigere Schlussfolgerungspfade zu konstruieren. Anschließend fungiert ein weiteres SLM mit ähnlichen Fähigkeiten wie das Ziel-SLM als Diskriminator, um jeden vom Ziel-SLM generierten Pfad zu überprüfen. Die gegenseitig vereinbarten Schlussfolgerungspfade gelten als gegenseitig konsistent und sind somit wahrscheinlicher korrekt zu sein. Umfangreiche Experimente über fünf SLMs zeigen, dass rStar effektiv verschiedene Schlussfolgerungsprobleme lösen kann, einschließlich GSM8K, GSM-Hard, MATH, SVAMP und StrategyQA. Bemerkenswert steigert rStar die Genauigkeit von GSM8K von 12,51% auf 63,91% für LLaMA2-7B, von 36,46% auf 81,88% für Mistral-7B und von 74,53% auf 91,13% für LLaMA3-8B-Instruct. Der Code ist verfügbar unter https://github.com/zhentingqi/rStar.
English
This paper introduces rStar, a self-play mutual reasoning approach that significantly improves reasoning capabilities of small language models (SLMs) without fine-tuning or superior models. rStar decouples reasoning into a self-play mutual generation-discrimination process. First, a target SLM augments the Monte Carlo Tree Search (MCTS) with a rich set of human-like reasoning actions to construct higher quality reasoning trajectories. Next, another SLM, with capabilities similar to the target SLM, acts as a discriminator to verify each trajectory generated by the target SLM. The mutually agreed reasoning trajectories are considered mutual consistent, thus are more likely to be correct. Extensive experiments across five SLMs demonstrate rStar can effectively solve diverse reasoning problems, including GSM8K, GSM-Hard, MATH, SVAMP, and StrategyQA. Remarkably, rStar boosts GSM8K accuracy from 12.51% to 63.91% for LLaMA2-7B, from 36.46% to 81.88% for Mistral-7B, from 74.53% to 91.13% for LLaMA3-8B-Instruct. Code will be available at https://github.com/zhentingqi/rStar.

Summary

AI-Generated Summary

PDF739November 28, 2024