LLaMA-Berry: Ottimizzazione a Coppie per il Ragionamento Matematico di Livello O1 simile a Olimpiadi
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning
October 3, 2024
Autori: Di Zhang, Jianbo Wu, Jingdi Lei, Tong Che, Jiatong Li, Tong Xie, Xiaoshui Huang, Shufei Zhang, Marco Pavone, Yuqiang Li, Wanli Ouyang, Dongzhan Zhou
cs.AI
Abstract
Questo articolo presenta un avanzato framework di risoluzione di problemi matematici, LLaMA-Berry, per potenziare la capacità di ragionamento matematico dei Large Language Models (LLM). Il framework combina la Ricerca dell'Albero di Monte Carlo (Monte Carlo Tree Search, MCTS) con un processo iterativo di Auto-Raffinamento per ottimizzare il percorso di ragionamento e utilizza un modello di ricompensa a coppie per valutare globalmente percorsi diversi. Sfruttando le capacità di autocritica e riscrittura dei LLM, l'Auto-Raffinamento applicato a MCTS (SR-MCTS) supera le inefficienze e i limiti degli algoritmi di ricerca convenzionali passo dopo passo e avidi, promuovendo un'esplorazione più efficiente degli spazi delle soluzioni. Il Modello di Ricompensa a Preferenza a Coppie (Pairwise Preference Reward Model, PPRM), ispirato al Reinforcement Learning from Human Feedback (RLHF), viene poi utilizzato per modellare le preferenze a coppie tra le soluzioni, utilizzando un metodo di Conteggio di Borda Potenziato (Enhanced Borda Count, EBC) per sintetizzare tali preferenze in un punteggio di classifica globale per trovare risposte migliori. Questo approccio affronta le sfide della variabilità nella valutazione e delle distribuzioni non indipendenti nei compiti di ragionamento matematico. Il framework è stato testato su benchmark generali e avanzati, mostrando prestazioni superiori in termini di efficienza di ricerca e capacità di risoluzione dei problemi rispetto ai metodi esistenti come ToT e rStar, in particolare su benchmark di livello olimpiadico complessi, tra cui GPQA, AIME24 e AMC23.
English
This paper presents an advanced mathematical problem-solving framework,
LLaMA-Berry, for enhancing the mathematical reasoning ability of Large Language
Models (LLMs). The framework combines Monte Carlo Tree Search (MCTS) with
iterative Self-Refine to optimize the reasoning path and utilizes a pairwise
reward model to evaluate different paths globally. By leveraging the
self-critic and rewriting capabilities of LLMs, Self-Refine applied to MCTS
(SR-MCTS) overcomes the inefficiencies and limitations of conventional
step-wise and greedy search algorithms by fostering a more efficient
exploration of solution spaces. Pairwise Preference Reward Model~(PPRM),
inspired by Reinforcement Learning from Human Feedback (RLHF), is then used to
model pairwise preferences between solutions, utilizing an Enhanced Borda Count
(EBC) method to synthesize these preferences into a global ranking score to
find better answers. This approach addresses the challenges of scoring
variability and non-independent distributions in mathematical reasoning tasks.
The framework has been tested on general and advanced benchmarks, showing
superior performance in terms of search efficiency and problem-solving
capability compared to existing methods like ToT and rStar, particularly in
complex Olympiad-level benchmarks, including GPQA, AIME24 and AMC23.