ChatPaper.aiChatPaper

Доступ к решениям математических олимпиад на уровне GPT-4 через самоусовершенствование дерева методом Монте-Карло с использованием LLaMa-3 8B.

Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B

June 11, 2024
Авторы: Di Zhang, Jiatong Li, Xiaoshui Huang, Dongzhan Zhou, Yuqiang Li, Wanli Ouyang
cs.AI

Аннотация

Данная статья представляет алгоритм MCT Self-Refine (MCTSr), инновационное объединение Large Language Models (LLM) с методом Monte Carlo Tree Search (MCTS), разработанное для улучшения производительности в сложных математических задачах рассуждения. Решая проблемы точности и надежности в LLM, особенно в стратегическом и математическом рассуждении, MCTSr использует систематическое исследование и механизмы эвристического самосовершенствования для улучшения фреймворков принятия решений в LLM. Алгоритм строит дерево поиска методом Монте-Карло через итеративные процессы выбора, самосовершенствования, самооценки и обратного распространения, используя улучшенную формулу Верхней Доверительной Границы (UCB) для оптимизации баланса исследования и эксплуатации. Обширные эксперименты демонстрируют эффективность MCTSr в решении математических задач уровня Олимпиады, значительно повышая успешность на различных наборах данных, включая GSM8K, GSM Hard, MATH, и бенчмарки уровня Олимпиады, такие как Math Odyssey, AIME и OlympiadBench. Исследование продвигает применение LLM в сложных задачах рассуждения и заложение основы для будущей интеграции искусственного интеллекта, улучшая точность и надежность принятия решений в приложениях, основанных на LLM.
English
This paper introduces the MCT Self-Refine (MCTSr) algorithm, an innovative integration of Large Language Models (LLMs) with Monte Carlo Tree Search (MCTS), designed to enhance performance in complex mathematical reasoning tasks. Addressing the challenges of accuracy and reliability in LLMs, particularly in strategic and mathematical reasoning, MCTSr leverages systematic exploration and heuristic self-refine mechanisms to improve decision-making frameworks within LLMs. The algorithm constructs a Monte Carlo search tree through iterative processes of Selection, self-refine, self-evaluation, and Backpropagation, utilizing an improved Upper Confidence Bound (UCB) formula to optimize the exploration-exploitation balance. Extensive experiments demonstrate MCTSr's efficacy in solving Olympiad-level mathematical problems, significantly improving success rates across multiple datasets, including GSM8K, GSM Hard, MATH, and Olympiad-level benchmarks, including Math Odyssey, AIME, and OlympiadBench. The study advances the application of LLMs in complex reasoning tasks and sets a foundation for future AI integration, enhancing decision-making accuracy and reliability in LLM-driven applications.

Summary

AI-Generated Summary

PDF291December 8, 2024