ChatPaper.aiChatPaper

LLaMA-Berry: Pairwise optimalisatie voor O1-achtige Olympiadenniveau Mathematische Redenering

LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning

October 3, 2024
Auteurs: Di Zhang, Jianbo Wu, Jingdi Lei, Tong Che, Jiatong Li, Tong Xie, Xiaoshui Huang, Shufei Zhang, Marco Pavone, Yuqiang Li, Wanli Ouyang, Dongzhan Zhou
cs.AI

Samenvatting

Dit artikel presenteert een geavanceerd wiskundig probleemoplossingskader, LLaMA-Berry, om de wiskundige redeneervaardigheid van Grote Taalmodellen (LLMs) te verbeteren. Het kader combineert Monte Carlo Tree Search (MCTS) met iteratieve Zelf-Verfijning om het redeneerpad te optimaliseren en maakt gebruik van een paarsgewijze beloningsmodel om verschillende paden wereldwijd te evalueren. Door gebruik te maken van de zelfkritiek en herschrijfvaardigheden van LLMs, overwint Zelf-Verfijning toegepast op MCTS (SR-MCTS) de inefficiënties en beperkingen van conventionele stapsgewijze en hebzuchtige zoekalgoritmen door een efficiëntere verkenning van oplossingsruimtes te bevorderen. Het paarsgewijze Voorkeursbeloningsmodel (PPRM), geïnspireerd door Versterkend Leren van Menselijke Feedback (RLHF), wordt vervolgens gebruikt om paarvoorkeuren tussen oplossingen te modelleren, waarbij een Verbeterde Borda Telling (EBC) methode wordt gebruikt om deze voorkeuren te synthetiseren tot een wereldwijde rangschikkingsscore om betere antwoorden te vinden. Deze benadering adresseert de uitdagingen van scorevariabiliteit en niet-onafhankelijke verdelingen bij wiskundige redeneertaken. Het kader is getest op algemene en geavanceerde benchmarks, waarbij het superieure prestaties vertoonde op het gebied van zoekefficiëntie en probleemoplossend vermogen in vergelijking met bestaande methoden zoals ToT en rStar, met name in complexe Olympiadische benchmarks, waaronder GPQA, AIME24 en AMC23.
English
This paper presents an advanced mathematical problem-solving framework, LLaMA-Berry, for enhancing the mathematical reasoning ability of Large Language Models (LLMs). The framework combines Monte Carlo Tree Search (MCTS) with iterative Self-Refine to optimize the reasoning path and utilizes a pairwise reward model to evaluate different paths globally. By leveraging the self-critic and rewriting capabilities of LLMs, Self-Refine applied to MCTS (SR-MCTS) overcomes the inefficiencies and limitations of conventional step-wise and greedy search algorithms by fostering a more efficient exploration of solution spaces. Pairwise Preference Reward Model~(PPRM), inspired by Reinforcement Learning from Human Feedback (RLHF), is then used to model pairwise preferences between solutions, utilizing an Enhanced Borda Count (EBC) method to synthesize these preferences into a global ranking score to find better answers. This approach addresses the challenges of scoring variability and non-independent distributions in mathematical reasoning tasks. The framework has been tested on general and advanced benchmarks, showing superior performance in terms of search efficiency and problem-solving capability compared to existing methods like ToT and rStar, particularly in complex Olympiad-level benchmarks, including GPQA, AIME24 and AMC23.

Summary

AI-Generated Summary

PDF554November 16, 2024