Wederzijds redeneren maakt kleinere LLM's betere probleemoplossers.
Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers
August 12, 2024
Auteurs: Zhenting Qi, Mingyuan Ma, Jiahang Xu, Li Lyna Zhang, Fan Yang, Mao Yang
cs.AI
Samenvatting
Dit artikel introduceert rStar, een zelfspel-methode voor wederzijds redeneren die de redeneervaardigheden van kleine taalmodelen (SLMs) aanzienlijk verbetert zonder fine-tuning of superieure modellen. rStar ontkoppelt redeneren in een zelfspel-proces van wederzijdse generatie-discriminatie. Eerst verrijkt een doel-SLM de Monte Carlo Tree Search (MCTS) met een uitgebreide set van mensachtige redeneeracties om hogere kwaliteit redeneertrajecten te construeren. Vervolgens fungeert een andere SLM, met vergelijkbare capaciteiten als de doel-SLM, als discriminator om elk door de doel-SLM gegenereerd traject te verifiëren. De wederzijds overeengekomen redeneertrajecten worden als wederzijds consistent beschouwd en zijn daardoor waarschijnlijker correct. Uitgebreide experimenten met vijf SLMs tonen aan dat rStar effectief diverse redeneerproblemen kan oplossen, waaronder GSM8K, GSM-Hard, MATH, SVAMP en StrategyQA. Opmerkelijk is dat rStar de nauwkeurigheid van GSM8K verhoogt van 12,51% naar 63,91% voor LLaMA2-7B, van 36,46% naar 81,88% voor Mistral-7B, en van 74,53% naar 91,13% voor LLaMA3-8B-Instruct. De code zal beschikbaar zijn op https://github.com/zhentingqi/rStar.
English
This paper introduces rStar, a self-play mutual reasoning approach that
significantly improves reasoning capabilities of small language models (SLMs)
without fine-tuning or superior models. rStar decouples reasoning into a
self-play mutual generation-discrimination process. First, a target SLM
augments the Monte Carlo Tree Search (MCTS) with a rich set of human-like
reasoning actions to construct higher quality reasoning trajectories. Next,
another SLM, with capabilities similar to the target SLM, acts as a
discriminator to verify each trajectory generated by the target SLM. The
mutually agreed reasoning trajectories are considered mutual consistent, thus
are more likely to be correct. Extensive experiments across five SLMs
demonstrate rStar can effectively solve diverse reasoning problems, including
GSM8K, GSM-Hard, MATH, SVAMP, and StrategyQA. Remarkably, rStar boosts GSM8K
accuracy from 12.51% to 63.91% for LLaMA2-7B, from 36.46% to 81.88% for
Mistral-7B, from 74.53% to 91.13% for LLaMA3-8B-Instruct. Code will be
available at https://github.com/zhentingqi/rStar.