El Razonamiento Mutuo Hace que los LLMs Más Pequeños Sean Solucionadores de Problemas Más Fuertes.
Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers
August 12, 2024
Autores: Zhenting Qi, Mingyuan Ma, Jiahang Xu, Li Lyna Zhang, Fan Yang, Mao Yang
cs.AI
Resumen
Este documento presenta rStar, un enfoque de razonamiento mutuo de autojuego que mejora significativamente las capacidades de razonamiento de modelos de lenguaje pequeños (SLMs) sin ajuste fino o modelos superiores. rStar desacopla el razonamiento en un proceso de generación-discriminación mutua de autojuego. Primero, un SLM objetivo aumenta la Búsqueda del Árbol de Monte Carlo (MCTS) con un conjunto amplio de acciones de razonamiento similares a las humanas para construir trayectorias de razonamiento de mayor calidad. Luego, otro SLM, con capacidades similares al SLM objetivo, actúa como un discriminador para verificar cada trayectoria generada por el SLM objetivo. Las trayectorias de razonamiento mutuamente acordadas se consideran mutuamente consistentes, por lo tanto, es más probable que sean correctas. Experimentos extensos en cinco SLMs demuestran que rStar puede resolver efectivamente diversos problemas de razonamiento, incluidos GSM8K, GSM-Hard, MATH, SVAMP y StrategyQA. Notablemente, rStar aumenta la precisión de GSM8K del 12.51% al 63.91% para LLaMA2-7B, del 36.46% al 81.88% para Mistral-7B, y del 74.53% al 91.13% para LLaMA3-8B-Instruct. El código estará disponible en https://github.com/zhentingqi/rStar.
English
This paper introduces rStar, a self-play mutual reasoning approach that
significantly improves reasoning capabilities of small language models (SLMs)
without fine-tuning or superior models. rStar decouples reasoning into a
self-play mutual generation-discrimination process. First, a target SLM
augments the Monte Carlo Tree Search (MCTS) with a rich set of human-like
reasoning actions to construct higher quality reasoning trajectories. Next,
another SLM, with capabilities similar to the target SLM, acts as a
discriminator to verify each trajectory generated by the target SLM. The
mutually agreed reasoning trajectories are considered mutual consistent, thus
are more likely to be correct. Extensive experiments across five SLMs
demonstrate rStar can effectively solve diverse reasoning problems, including
GSM8K, GSM-Hard, MATH, SVAMP, and StrategyQA. Remarkably, rStar boosts GSM8K
accuracy from 12.51% to 63.91% for LLaMA2-7B, from 36.46% to 81.88% for
Mistral-7B, from 74.53% to 91.13% for LLaMA3-8B-Instruct. Code will be
available at https://github.com/zhentingqi/rStar.Summary
AI-Generated Summary