Toegang tot GPT-4-niveau Wiskundige Olympiade Oplossingen via Monte Carlo Boom Zelfverfijning met LLaMa-3 8B
Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B
June 11, 2024
Auteurs: Di Zhang, Jiatong Li, Xiaoshui Huang, Dongzhan Zhou, Yuqiang Li, Wanli Ouyang
cs.AI
Samenvatting
Dit artikel introduceert het MCT Self-Refine (MCTSr) algoritme, een innovatieve integratie van Large Language Models (LLMs) met Monte Carlo Tree Search (MCTS), ontworpen om de prestaties te verbeteren bij complexe wiskundige redeneertaken. Door de uitdagingen van nauwkeurigheid en betrouwbaarheid in LLMs aan te pakken, met name bij strategisch en wiskundig redeneren, maakt MCTSr gebruik van systematische exploratie en heuristische zelfverfijningsmechanismen om besluitvormingskaders binnen LLMs te verbeteren. Het algoritme construeert een Monte Carlo zoekboom door iteratieve processen van Selectie, zelfverfijning, zelfevaluatie en Backpropagation, waarbij een verbeterde Upper Confidence Bound (UCB) formule wordt gebruikt om de balans tussen exploratie en exploitatie te optimaliseren. Uitgebreide experimenten tonen de effectiviteit van MCTSr aan bij het oplossen van Olympiad-niveau wiskundige problemen, met een significante verbetering van de slagingspercentages op meerdere datasets, waaronder GSM8K, GSM Hard, MATH en Olympiad-niveau benchmarks, zoals Math Odyssey, AIME en OlympiadBench. De studie bevordert de toepassing van LLMs in complexe redeneertaken en legt een basis voor toekomstige AI-integratie, waardoor de nauwkeurigheid en betrouwbaarheid van besluitvorming in LLM-gedreven applicaties wordt verbeterd.
English
This paper introduces the MCT Self-Refine (MCTSr) algorithm, an innovative
integration of Large Language Models (LLMs) with Monte Carlo Tree Search
(MCTS), designed to enhance performance in complex mathematical reasoning
tasks. Addressing the challenges of accuracy and reliability in LLMs,
particularly in strategic and mathematical reasoning, MCTSr leverages
systematic exploration and heuristic self-refine mechanisms to improve
decision-making frameworks within LLMs. The algorithm constructs a Monte Carlo
search tree through iterative processes of Selection, self-refine,
self-evaluation, and Backpropagation, utilizing an improved Upper Confidence
Bound (UCB) formula to optimize the exploration-exploitation balance. Extensive
experiments demonstrate MCTSr's efficacy in solving Olympiad-level mathematical
problems, significantly improving success rates across multiple datasets,
including GSM8K, GSM Hard, MATH, and Olympiad-level benchmarks, including Math
Odyssey, AIME, and OlympiadBench. The study advances the application of LLMs in
complex reasoning tasks and sets a foundation for future AI integration,
enhancing decision-making accuracy and reliability in LLM-driven applications.