Доступ к решениям математических олимпиад на уровне GPT-4 через самоусовершенствование дерева методом Монте-Карло с использованием LLaMa-3 8B.
Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B
June 11, 2024
Авторы: Di Zhang, Jiatong Li, Xiaoshui Huang, Dongzhan Zhou, Yuqiang Li, Wanli Ouyang
cs.AI
Аннотация
Данная статья представляет алгоритм MCT Self-Refine (MCTSr), инновационное объединение Large Language Models (LLM) с методом Monte Carlo Tree Search (MCTS), разработанное для улучшения производительности в сложных математических задачах рассуждения. Решая проблемы точности и надежности в LLM, особенно в стратегическом и математическом рассуждении, MCTSr использует систематическое исследование и механизмы эвристического самосовершенствования для улучшения фреймворков принятия решений в LLM. Алгоритм строит дерево поиска методом Монте-Карло через итеративные процессы выбора, самосовершенствования, самооценки и обратного распространения, используя улучшенную формулу Верхней Доверительной Границы (UCB) для оптимизации баланса исследования и эксплуатации. Обширные эксперименты демонстрируют эффективность MCTSr в решении математических задач уровня Олимпиады, значительно повышая успешность на различных наборах данных, включая GSM8K, GSM Hard, MATH, и бенчмарки уровня Олимпиады, такие как Math Odyssey, AIME и OlympiadBench. Исследование продвигает применение LLM в сложных задачах рассуждения и заложение основы для будущей интеграции искусственного интеллекта, улучшая точность и надежность принятия решений в приложениях, основанных на LLM.
English
This paper introduces the MCT Self-Refine (MCTSr) algorithm, an innovative
integration of Large Language Models (LLMs) with Monte Carlo Tree Search
(MCTS), designed to enhance performance in complex mathematical reasoning
tasks. Addressing the challenges of accuracy and reliability in LLMs,
particularly in strategic and mathematical reasoning, MCTSr leverages
systematic exploration and heuristic self-refine mechanisms to improve
decision-making frameworks within LLMs. The algorithm constructs a Monte Carlo
search tree through iterative processes of Selection, self-refine,
self-evaluation, and Backpropagation, utilizing an improved Upper Confidence
Bound (UCB) formula to optimize the exploration-exploitation balance. Extensive
experiments demonstrate MCTSr's efficacy in solving Olympiad-level mathematical
problems, significantly improving success rates across multiple datasets,
including GSM8K, GSM Hard, MATH, and Olympiad-level benchmarks, including Math
Odyssey, AIME, and OlympiadBench. The study advances the application of LLMs in
complex reasoning tasks and sets a foundation for future AI integration,
enhancing decision-making accuracy and reliability in LLM-driven applications.Summary
AI-Generated Summary