Взаимное рассуждение делает более компактные LLM более эффективными в решении проблем.
Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers
August 12, 2024
Авторы: Zhenting Qi, Mingyuan Ma, Jiahang Xu, Li Lyna Zhang, Fan Yang, Mao Yang
cs.AI
Аннотация
Данная статья представляет rStar - метод взаимного рассуждения через самостоятельное обучение, который значительно улучшает способности к рассуждению небольших языковых моделей (SLM) без настройки или использования более продвинутых моделей. rStar разделяет рассуждение на процесс самостоятельной генерации и дискриминации. Сначала целевая SLM дополняет поиск по дереву Монте-Карло (MCTS) богатым набором действий рассуждения, похожих на человеческие, для создания траекторий рассуждения более высокого качества. Затем другая SLM, с возможностями, аналогичными целевой SLM, действует как дискриминатор, проверяя каждую траекторию, сгенерированную целевой SLM. Взаимно согласованные траектории рассуждения считаются взаимно согласованными, следовательно, они более вероятно являются правильными. Обширные эксперименты с пятью SLM показывают, что rStar может эффективно решать разнообразные задачи рассуждения, включая GSM8K, GSM-Hard, MATH, SVAMP и StrategyQA. Замечательно, rStar повышает точность GSM8K с 12.51% до 63.91% для LLaMA2-7B, с 36.46% до 81.88% для Mistral-7B, с 74.53% до 91.13% для LLaMA3-8B-Instruct. Код будет доступен по ссылке https://github.com/zhentingqi/rStar.
English
This paper introduces rStar, a self-play mutual reasoning approach that
significantly improves reasoning capabilities of small language models (SLMs)
without fine-tuning or superior models. rStar decouples reasoning into a
self-play mutual generation-discrimination process. First, a target SLM
augments the Monte Carlo Tree Search (MCTS) with a rich set of human-like
reasoning actions to construct higher quality reasoning trajectories. Next,
another SLM, with capabilities similar to the target SLM, acts as a
discriminator to verify each trajectory generated by the target SLM. The
mutually agreed reasoning trajectories are considered mutual consistent, thus
are more likely to be correct. Extensive experiments across five SLMs
demonstrate rStar can effectively solve diverse reasoning problems, including
GSM8K, GSM-Hard, MATH, SVAMP, and StrategyQA. Remarkably, rStar boosts GSM8K
accuracy from 12.51% to 63.91% for LLaMA2-7B, from 36.46% to 81.88% for
Mistral-7B, from 74.53% to 91.13% for LLaMA3-8B-Instruct. Code will be
available at https://github.com/zhentingqi/rStar.Summary
AI-Generated Summary