LLaMA-Berry : Optimisation par paires pour un raisonnement mathématique de niveau olympique similaire à O1
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning
October 3, 2024
Auteurs: Di Zhang, Jianbo Wu, Jingdi Lei, Tong Che, Jiatong Li, Tong Xie, Xiaoshui Huang, Shufei Zhang, Marco Pavone, Yuqiang Li, Wanli Ouyang, Dongzhan Zhou
cs.AI
Résumé
Cet article présente un cadre avancé de résolution de problèmes mathématiques, LLaMA-Berry, pour améliorer la capacité de raisonnement mathématique des grands modèles de langage (LLMs). Le cadre combine la recherche arborescente Monte Carlo (MCTS) avec l'auto-affinement itératif pour optimiser le chemin de raisonnement et utilise un modèle de récompense par paires pour évaluer différents chemins globalement. En exploitant les capacités d'auto-critique et de réécriture des LLMs, l'auto-affinement appliqué à MCTS (SR-MCTS) surmonte les inefficacités et les limitations des algorithmes de recherche pas à pas et gloutons conventionnels en favorisant une exploration plus efficace des espaces de solutions. Le modèle de récompense par préférence par paires (PPRM), inspiré de l'apprentissage par renforcement à partir des retours humains (RLHF), est ensuite utilisé pour modéliser les préférences par paires entre les solutions, en utilisant une méthode de comptage de Borda améliorée (EBC) pour synthétiser ces préférences en un score de classement global afin de trouver de meilleures réponses. Cette approche aborde les défis de la variabilité des scores et des distributions non indépendantes dans les tâches de raisonnement mathématique. Le cadre a été testé sur des bancs d'essai généraux et avancés, montrant des performances supérieures en termes d'efficacité de recherche et de capacité de résolution de problèmes par rapport aux méthodes existantes telles que ToT et rStar, notamment dans des bancs d'essai de niveau olympique complexes, y compris GPQA, AIME24 et AMC23.
English
This paper presents an advanced mathematical problem-solving framework,
LLaMA-Berry, for enhancing the mathematical reasoning ability of Large Language
Models (LLMs). The framework combines Monte Carlo Tree Search (MCTS) with
iterative Self-Refine to optimize the reasoning path and utilizes a pairwise
reward model to evaluate different paths globally. By leveraging the
self-critic and rewriting capabilities of LLMs, Self-Refine applied to MCTS
(SR-MCTS) overcomes the inefficiencies and limitations of conventional
step-wise and greedy search algorithms by fostering a more efficient
exploration of solution spaces. Pairwise Preference Reward Model~(PPRM),
inspired by Reinforcement Learning from Human Feedback (RLHF), is then used to
model pairwise preferences between solutions, utilizing an Enhanced Borda Count
(EBC) method to synthesize these preferences into a global ranking score to
find better answers. This approach addresses the challenges of scoring
variability and non-independent distributions in mathematical reasoning tasks.
The framework has been tested on general and advanced benchmarks, showing
superior performance in terms of search efficiency and problem-solving
capability compared to existing methods like ToT and rStar, particularly in
complex Olympiad-level benchmarks, including GPQA, AIME24 and AMC23.Summary
AI-Generated Summary