ChatPaper.aiChatPaper

Accesso a soluzioni di livello GPT-4 per le Olimpiadi della Matematica tramite Monte Carlo Tree Self-refine con LLaMa-3 8B

Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B

June 11, 2024
Autori: Di Zhang, Jiatong Li, Xiaoshui Huang, Dongzhan Zhou, Yuqiang Li, Wanli Ouyang
cs.AI

Abstract

Questo articolo introduce l'algoritmo MCT Self-Refine (MCTSr), un'innovativa integrazione di Large Language Models (LLM) con il Monte Carlo Tree Search (MCTS), progettato per migliorare le prestazioni in compiti complessi di ragionamento matematico. Affrontando le sfide di accuratezza e affidabilità degli LLM, in particolare nel ragionamento strategico e matematico, MCTSr sfrutta meccanismi di esplorazione sistematica e di auto-affinamento euristico per migliorare i framework decisionali all'interno degli LLM. L'algoritmo costruisce un albero di ricerca Monte Carlo attraverso processi iterativi di Selezione, auto-affinamento, auto-valutazione e Backpropagation, utilizzando una formula migliorata dell'Upper Confidence Bound (UCB) per ottimizzare il bilanciamento tra esplorazione e sfruttamento. Esperimenti estesi dimostrano l'efficacia di MCTSr nella risoluzione di problemi matematici di livello olimpico, migliorando significativamente i tassi di successo su più dataset, tra cui GSM8K, GSM Hard, MATH e benchmark di livello olimpico, come Math Odyssey, AIME e OlympiadBench. Lo studio avanza l'applicazione degli LLM in compiti di ragionamento complesso e getta le basi per future integrazioni di IA, migliorando l'accuratezza e l'affidabilità decisionale nelle applicazioni guidate da LLM.
English
This paper introduces the MCT Self-Refine (MCTSr) algorithm, an innovative integration of Large Language Models (LLMs) with Monte Carlo Tree Search (MCTS), designed to enhance performance in complex mathematical reasoning tasks. Addressing the challenges of accuracy and reliability in LLMs, particularly in strategic and mathematical reasoning, MCTSr leverages systematic exploration and heuristic self-refine mechanisms to improve decision-making frameworks within LLMs. The algorithm constructs a Monte Carlo search tree through iterative processes of Selection, self-refine, self-evaluation, and Backpropagation, utilizing an improved Upper Confidence Bound (UCB) formula to optimize the exploration-exploitation balance. Extensive experiments demonstrate MCTSr's efficacy in solving Olympiad-level mathematical problems, significantly improving success rates across multiple datasets, including GSM8K, GSM Hard, MATH, and Olympiad-level benchmarks, including Math Odyssey, AIME, and OlympiadBench. The study advances the application of LLMs in complex reasoning tasks and sets a foundation for future AI integration, enhancing decision-making accuracy and reliability in LLM-driven applications.
PDF291December 8, 2024