Accesso a soluzioni di livello GPT-4 per le Olimpiadi della Matematica tramite Monte Carlo Tree Self-refine con LLaMa-3 8B
Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B
June 11, 2024
Autori: Di Zhang, Jiatong Li, Xiaoshui Huang, Dongzhan Zhou, Yuqiang Li, Wanli Ouyang
cs.AI
Abstract
Questo articolo introduce l'algoritmo MCT Self-Refine (MCTSr), un'innovativa integrazione di Large Language Models (LLM) con il Monte Carlo Tree Search (MCTS), progettato per migliorare le prestazioni in compiti complessi di ragionamento matematico. Affrontando le sfide di accuratezza e affidabilità degli LLM, in particolare nel ragionamento strategico e matematico, MCTSr sfrutta meccanismi di esplorazione sistematica e di auto-affinamento euristico per migliorare i framework decisionali all'interno degli LLM. L'algoritmo costruisce un albero di ricerca Monte Carlo attraverso processi iterativi di Selezione, auto-affinamento, auto-valutazione e Backpropagation, utilizzando una formula migliorata dell'Upper Confidence Bound (UCB) per ottimizzare il bilanciamento tra esplorazione e sfruttamento. Esperimenti estesi dimostrano l'efficacia di MCTSr nella risoluzione di problemi matematici di livello olimpico, migliorando significativamente i tassi di successo su più dataset, tra cui GSM8K, GSM Hard, MATH e benchmark di livello olimpico, come Math Odyssey, AIME e OlympiadBench. Lo studio avanza l'applicazione degli LLM in compiti di ragionamento complesso e getta le basi per future integrazioni di IA, migliorando l'accuratezza e l'affidabilità decisionale nelle applicazioni guidate da LLM.
English
This paper introduces the MCT Self-Refine (MCTSr) algorithm, an innovative
integration of Large Language Models (LLMs) with Monte Carlo Tree Search
(MCTS), designed to enhance performance in complex mathematical reasoning
tasks. Addressing the challenges of accuracy and reliability in LLMs,
particularly in strategic and mathematical reasoning, MCTSr leverages
systematic exploration and heuristic self-refine mechanisms to improve
decision-making frameworks within LLMs. The algorithm constructs a Monte Carlo
search tree through iterative processes of Selection, self-refine,
self-evaluation, and Backpropagation, utilizing an improved Upper Confidence
Bound (UCB) formula to optimize the exploration-exploitation balance. Extensive
experiments demonstrate MCTSr's efficacy in solving Olympiad-level mathematical
problems, significantly improving success rates across multiple datasets,
including GSM8K, GSM Hard, MATH, and Olympiad-level benchmarks, including Math
Odyssey, AIME, and OlympiadBench. The study advances the application of LLMs in
complex reasoning tasks and sets a foundation for future AI integration,
enhancing decision-making accuracy and reliability in LLM-driven applications.