Acessando Soluções de Olimpíadas Matemáticas no Nível GPT-4 via Auto-refinamento de Árvore de Monte Carlo com LLaMa-3 8B
Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B
June 11, 2024
Autores: Di Zhang, Jiatong Li, Xiaoshui Huang, Dongzhan Zhou, Yuqiang Li, Wanli Ouyang
cs.AI
Resumo
Este artigo apresenta o algoritmo MCT Self-Refine (MCTSr), uma integração inovadora de Modelos de Linguagem de Grande Escala (LLMs) com a Busca em Árvore de Monte Carlo (MCTS), projetado para aprimorar o desempenho em tarefas complexas de raciocínio matemático. Abordando os desafios de precisão e confiabilidade em LLMs, particularmente no raciocínio estratégico e matemático, o MCTSr aproveita mecanismos de exploração sistemática e auto-refinamento heurístico para melhorar estruturas de tomada de decisão dentro de LLMs. O algoritmo constrói uma árvore de busca de Monte Carlo por meio de processos iterativos de Seleção, auto-refinamento, autoavaliação e Retropropagação, utilizando uma fórmula aprimorada do Limite Superior de Confiança (UCB) para otimizar o equilíbrio entre exploração e exploração. Experimentos extensivos demonstram a eficácia do MCTSr na resolução de problemas matemáticos de nível olímpico, melhorando significativamente as taxas de sucesso em vários conjuntos de dados, incluindo GSM8K, GSM Hard, MATH e benchmarks de nível olímpico, como Math Odyssey, AIME e OlympiadBench. O estudo avança a aplicação de LLMs em tarefas complexas de raciocínio e estabelece uma base para futuras integrações de IA, aprimorando a precisão e a confiabilidade na tomada de decisão em aplicações impulsionadas por LLMs.
English
This paper introduces the MCT Self-Refine (MCTSr) algorithm, an innovative
integration of Large Language Models (LLMs) with Monte Carlo Tree Search
(MCTS), designed to enhance performance in complex mathematical reasoning
tasks. Addressing the challenges of accuracy and reliability in LLMs,
particularly in strategic and mathematical reasoning, MCTSr leverages
systematic exploration and heuristic self-refine mechanisms to improve
decision-making frameworks within LLMs. The algorithm constructs a Monte Carlo
search tree through iterative processes of Selection, self-refine,
self-evaluation, and Backpropagation, utilizing an improved Upper Confidence
Bound (UCB) formula to optimize the exploration-exploitation balance. Extensive
experiments demonstrate MCTSr's efficacy in solving Olympiad-level mathematical
problems, significantly improving success rates across multiple datasets,
including GSM8K, GSM Hard, MATH, and Olympiad-level benchmarks, including Math
Odyssey, AIME, and OlympiadBench. The study advances the application of LLMs in
complex reasoning tasks and sets a foundation for future AI integration,
enhancing decision-making accuracy and reliability in LLM-driven applications.