LLaMA-Berry: Otimização em Pares para Raciocínio Matemático de Nível O1-like de Olimpíadas
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning
October 3, 2024
Autores: Di Zhang, Jianbo Wu, Jingdi Lei, Tong Che, Jiatong Li, Tong Xie, Xiaoshui Huang, Shufei Zhang, Marco Pavone, Yuqiang Li, Wanli Ouyang, Dongzhan Zhou
cs.AI
Resumo
Este artigo apresenta um avançado framework de resolução de problemas matemáticos, LLaMA-Berry, para aprimorar a capacidade de raciocínio matemático de Modelos de Linguagem de Grande Escala (LLMs). O framework combina Busca em Árvore de Monte Carlo (MCTS) com Auto-Refinamento Iterativo para otimizar o caminho de raciocínio e utiliza um modelo de recompensa em pares para avaliar diferentes caminhos globalmente. Ao aproveitar as capacidades de autocrítica e reescrita dos LLMs, o Auto-Refinamento aplicado ao MCTS (SR-MCTS) supera as ineficiências e limitações dos algoritmos convencionais de busca passo a passo e gananciosos, promovendo uma exploração mais eficiente dos espaços de solução. O Modelo de Recompensa de Preferência em Pares (PPRM), inspirado no Aprendizado por Reforço a partir do Feedback Humano (RLHF), é então utilizado para modelar preferências em pares entre soluções, utilizando um método de Contagem de Borda Aprimorado (EBC) para sintetizar essas preferências em uma pontuação de classificação global para encontrar respostas melhores. Esta abordagem aborda os desafios de variabilidade de pontuação e distribuições não independentes em tarefas de raciocínio matemático. O framework foi testado em benchmarks gerais e avançados, demonstrando desempenho superior em termos de eficiência de busca e capacidade de resolução de problemas em comparação com métodos existentes como ToT e rStar, especialmente em benchmarks complexos de nível olímpico, incluindo GPQA, AIME24 e AMC23.
English
This paper presents an advanced mathematical problem-solving framework,
LLaMA-Berry, for enhancing the mathematical reasoning ability of Large Language
Models (LLMs). The framework combines Monte Carlo Tree Search (MCTS) with
iterative Self-Refine to optimize the reasoning path and utilizes a pairwise
reward model to evaluate different paths globally. By leveraging the
self-critic and rewriting capabilities of LLMs, Self-Refine applied to MCTS
(SR-MCTS) overcomes the inefficiencies and limitations of conventional
step-wise and greedy search algorithms by fostering a more efficient
exploration of solution spaces. Pairwise Preference Reward Model~(PPRM),
inspired by Reinforcement Learning from Human Feedback (RLHF), is then used to
model pairwise preferences between solutions, utilizing an Enhanced Borda Count
(EBC) method to synthesize these preferences into a global ranking score to
find better answers. This approach addresses the challenges of scoring
variability and non-independent distributions in mathematical reasoning tasks.
The framework has been tested on general and advanced benchmarks, showing
superior performance in terms of search efficiency and problem-solving
capability compared to existing methods like ToT and rStar, particularly in
complex Olympiad-level benchmarks, including GPQA, AIME24 and AMC23.Summary
AI-Generated Summary