LLaMA-Berry : Optimisation par paires pour un raisonnement mathématique de niveau olympique similaire à O1

papers.abstract

Cet article présente un cadre avancé de résolution de problèmes mathématiques, LLaMA-Berry, pour améliorer la capacité de raisonnement mathématique des grands modèles de langage (LLMs). Le cadre combine la recherche arborescente Monte Carlo (MCTS) avec l'auto-affinement itératif pour optimiser le chemin de raisonnement et utilise un modèle de récompense par paires pour évaluer différents chemins globalement. En exploitant les capacités d'auto-critique et de réécriture des LLMs, l'auto-affinement appliqué à MCTS (SR-MCTS) surmonte les inefficacités et les limitations des algorithmes de recherche pas à pas et gloutons conventionnels en favorisant une exploration plus efficace des espaces de solutions. Le modèle de récompense par préférence par paires (PPRM), inspiré de l'apprentissage par renforcement à partir des retours humains (RLHF), est ensuite utilisé pour modéliser les préférences par paires entre les solutions, en utilisant une méthode de comptage de Borda améliorée (EBC) pour synthétiser ces préférences en un score de classement global afin de trouver de meilleures réponses. Cette approche aborde les défis de la variabilité des scores et des distributions non indépendantes dans les tâches de raisonnement mathématique. Le cadre a été testé sur des bancs d'essai généraux et avancés, montrant des performances supérieures en termes d'efficacité de recherche et de capacité de résolution de problèmes par rapport aux méthodes existantes telles que ToT et rStar, notamment dans des bancs d'essai de niveau olympique complexes, y compris GPQA, AIME24 et AMC23.

English

This paper presents an advanced mathematical problem-solving framework, LLaMA-Berry, for enhancing the mathematical reasoning ability of Large Language Models (LLMs). The framework combines Monte Carlo Tree Search (MCTS) with iterative Self-Refine to optimize the reasoning path and utilizes a pairwise reward model to evaluate different paths globally. By leveraging the self-critic and rewriting capabilities of LLMs, Self-Refine applied to MCTS (SR-MCTS) overcomes the inefficiencies and limitations of conventional step-wise and greedy search algorithms by fostering a more efficient exploration of solution spaces. Pairwise Preference Reward Model~(PPRM), inspired by Reinforcement Learning from Human Feedback (RLHF), is then used to model pairwise preferences between solutions, utilizing an Enhanced Borda Count (EBC) method to synthesize these preferences into a global ranking score to find better answers. This approach addresses the challenges of scoring variability and non-independent distributions in mathematical reasoning tasks. The framework has been tested on general and advanced benchmarks, showing superior performance in terms of search efficiency and problem-solving capability compared to existing methods like ToT and rStar, particularly in complex Olympiad-level benchmarks, including GPQA, AIME24 and AMC23.

LLaMA-Berry : Optimisation par paires pour un raisonnement mathématique de niveau olympique similaire à O1

LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning

papers.abstract

Support