ChatPaper.aiChatPaper

LLaMA-Berry: Парное оптимизирование для математического рассуждения на уровне олимпиады O1.

LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning

October 3, 2024
Авторы: Di Zhang, Jianbo Wu, Jingdi Lei, Tong Che, Jiatong Li, Tong Xie, Xiaoshui Huang, Shufei Zhang, Marco Pavone, Yuqiang Li, Wanli Ouyang, Dongzhan Zhou
cs.AI

Аннотация

Данный доклад представляет собой продвинутую математическую систему решения задач, LLaMA-Berry, предназначенную для улучшения математического мышления крупных языковых моделей (LLM). Система объединяет метод Монте-Карло дерева поиска (MCTS) с итеративным самоусовершенствованием для оптимизации пути рассуждений и использует модель парных вознаграждений для глобальной оценки различных путей. Путем использования возможностей самокритики и переписывания LLM, самоусовершенствование, примененное к MCTS (SR-MCTS), преодолевает неэффективности и ограничения традиционных алгоритмов пошагового и жадного поиска путем содействия более эффективному исследованию пространств решений. Модель парных предпочтений вознаграждения (PPRM), вдохновленная обучением с подкреплением от обратной связи человека (RLHF), затем используется для моделирования парных предпочтений между решениями, используя метод улучшенного счета Борда (EBC) для синтеза этих предпочтений в глобальный рейтинговый балл для нахождения лучших ответов. Данный подход решает проблемы изменчивости оценок и независимых распределений в задачах математического рассуждения. Система была протестирована на общих и продвинутых бенчмарках, показав превосходную производительность в плане эффективности поиска и способности к решению проблем по сравнению с существующими методами, такими как ToT и rStar, особенно в сложных бенчмарках уровня Олимпиады, включая GPQA, AIME24 и AMC23.
English
This paper presents an advanced mathematical problem-solving framework, LLaMA-Berry, for enhancing the mathematical reasoning ability of Large Language Models (LLMs). The framework combines Monte Carlo Tree Search (MCTS) with iterative Self-Refine to optimize the reasoning path and utilizes a pairwise reward model to evaluate different paths globally. By leveraging the self-critic and rewriting capabilities of LLMs, Self-Refine applied to MCTS (SR-MCTS) overcomes the inefficiencies and limitations of conventional step-wise and greedy search algorithms by fostering a more efficient exploration of solution spaces. Pairwise Preference Reward Model~(PPRM), inspired by Reinforcement Learning from Human Feedback (RLHF), is then used to model pairwise preferences between solutions, utilizing an Enhanced Borda Count (EBC) method to synthesize these preferences into a global ranking score to find better answers. This approach addresses the challenges of scoring variability and non-independent distributions in mathematical reasoning tasks. The framework has been tested on general and advanced benchmarks, showing superior performance in terms of search efficiency and problem-solving capability compared to existing methods like ToT and rStar, particularly in complex Olympiad-level benchmarks, including GPQA, AIME24 and AMC23.

Summary

AI-Generated Summary

PDF554November 16, 2024