LLaMA-Berry: Парное оптимизирование для математического рассуждения на уровне олимпиады O1.

Аннотация

Данный доклад представляет собой продвинутую математическую систему решения задач, LLaMA-Berry, предназначенную для улучшения математического мышления крупных языковых моделей (LLM). Система объединяет метод Монте-Карло дерева поиска (MCTS) с итеративным самоусовершенствованием для оптимизации пути рассуждений и использует модель парных вознаграждений для глобальной оценки различных путей. Путем использования возможностей самокритики и переписывания LLM, самоусовершенствование, примененное к MCTS (SR-MCTS), преодолевает неэффективности и ограничения традиционных алгоритмов пошагового и жадного поиска путем содействия более эффективному исследованию пространств решений. Модель парных предпочтений вознаграждения (PPRM), вдохновленная обучением с подкреплением от обратной связи человека (RLHF), затем используется для моделирования парных предпочтений между решениями, используя метод улучшенного счета Борда (EBC) для синтеза этих предпочтений в глобальный рейтинговый балл для нахождения лучших ответов. Данный подход решает проблемы изменчивости оценок и независимых распределений в задачах математического рассуждения. Система была протестирована на общих и продвинутых бенчмарках, показав превосходную производительность в плане эффективности поиска и способности к решению проблем по сравнению с существующими методами, такими как ToT и rStar, особенно в сложных бенчмарках уровня Олимпиады, включая GPQA, AIME24 и AMC23.

English

This paper presents an advanced mathematical problem-solving framework, LLaMA-Berry, for enhancing the mathematical reasoning ability of Large Language Models (LLMs). The framework combines Monte Carlo Tree Search (MCTS) with iterative Self-Refine to optimize the reasoning path and utilizes a pairwise reward model to evaluate different paths globally. By leveraging the self-critic and rewriting capabilities of LLMs, Self-Refine applied to MCTS (SR-MCTS) overcomes the inefficiencies and limitations of conventional step-wise and greedy search algorithms by fostering a more efficient exploration of solution spaces. Pairwise Preference Reward Model~(PPRM), inspired by Reinforcement Learning from Human Feedback (RLHF), is then used to model pairwise preferences between solutions, utilizing an Enhanced Borda Count (EBC) method to synthesize these preferences into a global ranking score to find better answers. This approach addresses the challenges of scoring variability and non-independent distributions in mathematical reasoning tasks. The framework has been tested on general and advanced benchmarks, showing superior performance in terms of search efficiency and problem-solving capability compared to existing methods like ToT and rStar, particularly in complex Olympiad-level benchmarks, including GPQA, AIME24 and AMC23.

LLaMA-Berry: Парное оптимизирование для математического рассуждения на уровне олимпиады O1.

LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning

Аннотация

Support