O Raciocínio Mútuo Torna os LLMs Menores Mais Fortes na Resolução de Problemas
Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers
August 12, 2024
Autores: Zhenting Qi, Mingyuan Ma, Jiahang Xu, Li Lyna Zhang, Fan Yang, Mao Yang
cs.AI
Resumo
Este artigo apresenta o rStar, uma abordagem de raciocínio mútuo de autojogo que melhora significativamente as capacidades de raciocínio de pequenos modelos de linguagem (SLMs) sem ajuste fino ou modelos superiores. O rStar desacopla o raciocínio em um processo de geração-discriminação mútua de autojogo. Primeiramente, um SLM alvo aumenta a Busca em Árvore de Monte Carlo (MCTS) com um conjunto rico de ações de raciocínio semelhantes às humanas para construir trajetórias de raciocínio de maior qualidade. Em seguida, outro SLM, com capacidades semelhantes ao SLM alvo, atua como um discriminador para verificar cada trajetória gerada pelo SLM alvo. As trajetórias de raciocínio mutuamente acordadas são consideradas mutuamente consistentes, sendo assim mais propensas a estarem corretas. Experimentos extensivos em cinco SLMs demonstram que o rStar pode resolver efetivamente diversos problemas de raciocínio, incluindo GSM8K, GSM-Hard, MATH, SVAMP e StrategyQA. Notavelmente, o rStar aumenta a precisão do GSM8K de 12,51% para 63,91% para LLaMA2-7B, de 36,46% para 81,88% para Mistral-7B, e de 74,53% para 91,13% para LLaMA3-8B-Instruct. O código estará disponível em https://github.com/zhentingqi/rStar.
English
This paper introduces rStar, a self-play mutual reasoning approach that
significantly improves reasoning capabilities of small language models (SLMs)
without fine-tuning or superior models. rStar decouples reasoning into a
self-play mutual generation-discrimination process. First, a target SLM
augments the Monte Carlo Tree Search (MCTS) with a rich set of human-like
reasoning actions to construct higher quality reasoning trajectories. Next,
another SLM, with capabilities similar to the target SLM, acts as a
discriminator to verify each trajectory generated by the target SLM. The
mutually agreed reasoning trajectories are considered mutual consistent, thus
are more likely to be correct. Extensive experiments across five SLMs
demonstrate rStar can effectively solve diverse reasoning problems, including
GSM8K, GSM-Hard, MATH, SVAMP, and StrategyQA. Remarkably, rStar boosts GSM8K
accuracy from 12.51% to 63.91% for LLaMA2-7B, from 36.46% to 81.88% for
Mistral-7B, from 74.53% to 91.13% for LLaMA3-8B-Instruct. Code will be
available at https://github.com/zhentingqi/rStar.Summary
AI-Generated Summary