Il ragionamento reciproco rende i modelli linguistici più piccoli risolutori di problemi più efficaci.
Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers
August 12, 2024
Autori: Zhenting Qi, Mingyuan Ma, Jiahang Xu, Li Lyna Zhang, Fan Yang, Mao Yang
cs.AI
Abstract
Questo articolo introduce rStar, un approccio di ragionamento reciproco basato sul self-play che migliora significativamente le capacità di ragionamento di piccoli modelli linguistici (SLM) senza la necessità di fine-tuning o modelli superiori. rStar scompone il ragionamento in un processo reciproco di generazione-discriminazione basato sul self-play. In primo luogo, un SLM target arricchisce la Ricerca ad Albero Monte Carlo (MCTS) con un ampio set di azioni di ragionamento simili a quelle umane per costruire traiettorie di ragionamento di qualità superiore. Successivamente, un altro SLM, con capacità simili al target SLM, agisce come discriminatore per verificare ciascuna traiettoria generata dal target SLM. Le traiettorie di ragionamento reciprocamente concordate sono considerate mutuamente consistenti e quindi più probabili che siano corrette. Esperimenti estesi su cinque SLM dimostrano che rStar può risolvere efficacemente diversi problemi di ragionamento, tra cui GSM8K, GSM-Hard, MATH, SVAMP e StrategyQA. In modo notevole, rStar aumenta l'accuratezza su GSM8K dal 12,51% al 63,91% per LLaMA2-7B, dal 36,46% all'81,88% per Mistral-7B e dal 74,53% al 91,13% per LLaMA3-8B-Instruct. Il codice sarà disponibile all'indirizzo https://github.com/zhentingqi/rStar.
English
This paper introduces rStar, a self-play mutual reasoning approach that
significantly improves reasoning capabilities of small language models (SLMs)
without fine-tuning or superior models. rStar decouples reasoning into a
self-play mutual generation-discrimination process. First, a target SLM
augments the Monte Carlo Tree Search (MCTS) with a rich set of human-like
reasoning actions to construct higher quality reasoning trajectories. Next,
another SLM, with capabilities similar to the target SLM, acts as a
discriminator to verify each trajectory generated by the target SLM. The
mutually agreed reasoning trajectories are considered mutual consistent, thus
are more likely to be correct. Extensive experiments across five SLMs
demonstrate rStar can effectively solve diverse reasoning problems, including
GSM8K, GSM-Hard, MATH, SVAMP, and StrategyQA. Remarkably, rStar boosts GSM8K
accuracy from 12.51% to 63.91% for LLaMA2-7B, from 36.46% to 81.88% for
Mistral-7B, from 74.53% to 91.13% for LLaMA3-8B-Instruct. Code will be
available at https://github.com/zhentingqi/rStar.