Accediendo a soluciones de nivel GPT-4 para Olimpiadas Matemáticas mediante Árbol de Monte Carlo con Auto-refinamiento y LLaMa-3 8B
Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B
June 11, 2024
Autores: Di Zhang, Jiatong Li, Xiaoshui Huang, Dongzhan Zhou, Yuqiang Li, Wanli Ouyang
cs.AI
Resumen
Este artículo presenta el algoritmo MCT Self-Refine (MCTSr), una innovadora integración de Modelos de Lenguaje de Gran Escala (LLMs) con Búsqueda de Árbol de Monte Carlo (MCTS), diseñado para mejorar el rendimiento en tareas complejas de razonamiento matemático. Abordando los desafíos de precisión y confiabilidad en los LLMs, particularmente en razonamiento estratégico y matemático, MCTSr aprovecha mecanismos de exploración sistemática y auto-refinamiento heurístico para mejorar los marcos de toma de decisiones dentro de los LLMs. El algoritmo construye un árbol de búsqueda de Monte Carlo a través de procesos iterativos de Selección, auto-refinamiento, auto-evaluación y Retropropagación, utilizando una fórmula mejorada del Límite Superior de Confianza (UCB) para optimizar el equilibrio entre exploración y explotación. Experimentos extensos demuestran la eficacia de MCTSr en la resolución de problemas matemáticos de nivel olímpico, mejorando significativamente las tasas de éxito en múltiples conjuntos de datos, incluyendo GSM8K, GSM Hard, MATH y benchmarks de nivel olímpico, como Math Odyssey, AIME y OlympiadBench. El estudio avanza la aplicación de los LLMs en tareas de razonamiento complejo y establece una base para la futura integración de IA, mejorando la precisión y confiabilidad en la toma de decisiones en aplicaciones impulsadas por LLMs.
English
This paper introduces the MCT Self-Refine (MCTSr) algorithm, an innovative
integration of Large Language Models (LLMs) with Monte Carlo Tree Search
(MCTS), designed to enhance performance in complex mathematical reasoning
tasks. Addressing the challenges of accuracy and reliability in LLMs,
particularly in strategic and mathematical reasoning, MCTSr leverages
systematic exploration and heuristic self-refine mechanisms to improve
decision-making frameworks within LLMs. The algorithm constructs a Monte Carlo
search tree through iterative processes of Selection, self-refine,
self-evaluation, and Backpropagation, utilizing an improved Upper Confidence
Bound (UCB) formula to optimize the exploration-exploitation balance. Extensive
experiments demonstrate MCTSr's efficacy in solving Olympiad-level mathematical
problems, significantly improving success rates across multiple datasets,
including GSM8K, GSM Hard, MATH, and Olympiad-level benchmarks, including Math
Odyssey, AIME, and OlympiadBench. The study advances the application of LLMs in
complex reasoning tasks and sets a foundation for future AI integration,
enhancing decision-making accuracy and reliability in LLM-driven applications.