Доступ к решениям математических олимпиад на уровне GPT-4 через самоусовершенствование дерева методом Монте-Карло с использованием LLaMa-3 8B.

Аннотация

Данная статья представляет алгоритм MCT Self-Refine (MCTSr), инновационное объединение Large Language Models (LLM) с методом Monte Carlo Tree Search (MCTS), разработанное для улучшения производительности в сложных математических задачах рассуждения. Решая проблемы точности и надежности в LLM, особенно в стратегическом и математическом рассуждении, MCTSr использует систематическое исследование и механизмы эвристического самосовершенствования для улучшения фреймворков принятия решений в LLM. Алгоритм строит дерево поиска методом Монте-Карло через итеративные процессы выбора, самосовершенствования, самооценки и обратного распространения, используя улучшенную формулу Верхней Доверительной Границы (UCB) для оптимизации баланса исследования и эксплуатации. Обширные эксперименты демонстрируют эффективность MCTSr в решении математических задач уровня Олимпиады, значительно повышая успешность на различных наборах данных, включая GSM8K, GSM Hard, MATH, и бенчмарки уровня Олимпиады, такие как Math Odyssey, AIME и OlympiadBench. Исследование продвигает применение LLM в сложных задачах рассуждения и заложение основы для будущей интеграции искусственного интеллекта, улучшая точность и надежность принятия решений в приложениях, основанных на LLM.

English

This paper introduces the MCT Self-Refine (MCTSr) algorithm, an innovative integration of Large Language Models (LLMs) with Monte Carlo Tree Search (MCTS), designed to enhance performance in complex mathematical reasoning tasks. Addressing the challenges of accuracy and reliability in LLMs, particularly in strategic and mathematical reasoning, MCTSr leverages systematic exploration and heuristic self-refine mechanisms to improve decision-making frameworks within LLMs. The algorithm constructs a Monte Carlo search tree through iterative processes of Selection, self-refine, self-evaluation, and Backpropagation, utilizing an improved Upper Confidence Bound (UCB) formula to optimize the exploration-exploitation balance. Extensive experiments demonstrate MCTSr's efficacy in solving Olympiad-level mathematical problems, significantly improving success rates across multiple datasets, including GSM8K, GSM Hard, MATH, and Olympiad-level benchmarks, including Math Odyssey, AIME, and OlympiadBench. The study advances the application of LLMs in complex reasoning tasks and sets a foundation for future AI integration, enhancing decision-making accuracy and reliability in LLM-driven applications.

Доступ к решениям математических олимпиад на уровне GPT-4 через самоусовершенствование дерева методом Монте-Карло с использованием LLaMa-3 8B.

Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B

Аннотация

Support