Acessando Soluções de Olimpíadas Matemáticas no Nível GPT-4 via Auto-refinamento de Árvore de Monte Carlo com LLaMa-3 8B

Resumo

Este artigo apresenta o algoritmo MCT Self-Refine (MCTSr), uma integração inovadora de Modelos de Linguagem de Grande Escala (LLMs) com a Busca em Árvore de Monte Carlo (MCTS), projetado para aprimorar o desempenho em tarefas complexas de raciocínio matemático. Abordando os desafios de precisão e confiabilidade em LLMs, particularmente no raciocínio estratégico e matemático, o MCTSr aproveita mecanismos de exploração sistemática e auto-refinamento heurístico para melhorar estruturas de tomada de decisão dentro de LLMs. O algoritmo constrói uma árvore de busca de Monte Carlo por meio de processos iterativos de Seleção, auto-refinamento, autoavaliação e Retropropagação, utilizando uma fórmula aprimorada do Limite Superior de Confiança (UCB) para otimizar o equilíbrio entre exploração e exploração. Experimentos extensivos demonstram a eficácia do MCTSr na resolução de problemas matemáticos de nível olímpico, melhorando significativamente as taxas de sucesso em vários conjuntos de dados, incluindo GSM8K, GSM Hard, MATH e benchmarks de nível olímpico, como Math Odyssey, AIME e OlympiadBench. O estudo avança a aplicação de LLMs em tarefas complexas de raciocínio e estabelece uma base para futuras integrações de IA, aprimorando a precisão e a confiabilidade na tomada de decisão em aplicações impulsionadas por LLMs.

English

This paper introduces the MCT Self-Refine (MCTSr) algorithm, an innovative integration of Large Language Models (LLMs) with Monte Carlo Tree Search (MCTS), designed to enhance performance in complex mathematical reasoning tasks. Addressing the challenges of accuracy and reliability in LLMs, particularly in strategic and mathematical reasoning, MCTSr leverages systematic exploration and heuristic self-refine mechanisms to improve decision-making frameworks within LLMs. The algorithm constructs a Monte Carlo search tree through iterative processes of Selection, self-refine, self-evaluation, and Backpropagation, utilizing an improved Upper Confidence Bound (UCB) formula to optimize the exploration-exploitation balance. Extensive experiments demonstrate MCTSr's efficacy in solving Olympiad-level mathematical problems, significantly improving success rates across multiple datasets, including GSM8K, GSM Hard, MATH, and Olympiad-level benchmarks, including Math Odyssey, AIME, and OlympiadBench. The study advances the application of LLMs in complex reasoning tasks and sets a foundation for future AI integration, enhancing decision-making accuracy and reliability in LLM-driven applications.

Acessando Soluções de Olimpíadas Matemáticas no Nível GPT-4 via Auto-refinamento de Árvore de Monte Carlo com LLaMa-3 8B

Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B

Resumo

Support