LLaMA-Berry: Paarweise Optimierung für O1-ähnliche mathematische Argumentation auf Olympiade-Niveau
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning
October 3, 2024
Autoren: Di Zhang, Jianbo Wu, Jingdi Lei, Tong Che, Jiatong Li, Tong Xie, Xiaoshui Huang, Shufei Zhang, Marco Pavone, Yuqiang Li, Wanli Ouyang, Dongzhan Zhou
cs.AI
Zusammenfassung
Dieses Paper präsentiert einen fortgeschrittenen mathematischen Problemlösungsrahmen, LLaMA-Berry, zur Verbesserung der mathematischen Denkfähigkeit von Large Language Models (LLMs). Der Rahmen kombiniert Monte Carlo Tree Search (MCTS) mit iterativem Self-Refine, um den Denkpfad zu optimieren, und nutzt ein paarweises Belohnungsmodell zur globalen Bewertung unterschiedlicher Pfade. Durch die Nutzung der Selbstkritik- und Umschreibfähigkeiten von LLMs überwindet Self-Refine angewandt auf MCTS (SR-MCTS) die Ineffizienzen und Einschränkungen herkömmlicher schrittweiser und gieriger Suchalgorithmen, indem eine effizientere Exploration von Lösungsräumen gefördert wird. Das paarweise Präferenz-Belohnungsmodell (PPRM), inspiriert von Reinforcement Learning from Human Feedback (RLHF), wird dann verwendet, um paarweise Präferenzen zwischen Lösungen zu modellieren, wobei eine Enhanced Borda Count (EBC) Methode genutzt wird, um diese Präferenzen in einen globalen Rangpunktwert zu synthetisieren, um bessere Antworten zu finden. Dieser Ansatz begegnet den Herausforderungen der Punktevariabilität und nicht unabhängigen Verteilungen bei mathematischen Denkaufgaben. Der Rahmen wurde an allgemeinen und fortgeschrittenen Benchmarks getestet und zeigte eine überlegene Leistung hinsichtlich Sucheffizienz und Problemlösungsfähigkeit im Vergleich zu bestehenden Methoden wie ToT und rStar, insbesondere bei komplexen Olympiade-Level-Benchmarks, einschließlich GPQA, AIME24 und AMC23.
English
This paper presents an advanced mathematical problem-solving framework,
LLaMA-Berry, for enhancing the mathematical reasoning ability of Large Language
Models (LLMs). The framework combines Monte Carlo Tree Search (MCTS) with
iterative Self-Refine to optimize the reasoning path and utilizes a pairwise
reward model to evaluate different paths globally. By leveraging the
self-critic and rewriting capabilities of LLMs, Self-Refine applied to MCTS
(SR-MCTS) overcomes the inefficiencies and limitations of conventional
step-wise and greedy search algorithms by fostering a more efficient
exploration of solution spaces. Pairwise Preference Reward Model~(PPRM),
inspired by Reinforcement Learning from Human Feedback (RLHF), is then used to
model pairwise preferences between solutions, utilizing an Enhanced Borda Count
(EBC) method to synthesize these preferences into a global ranking score to
find better answers. This approach addresses the challenges of scoring
variability and non-independent distributions in mathematical reasoning tasks.
The framework has been tested on general and advanced benchmarks, showing
superior performance in terms of search efficiency and problem-solving
capability compared to existing methods like ToT and rStar, particularly in
complex Olympiad-level benchmarks, including GPQA, AIME24 and AMC23.Summary
AI-Generated Summary