ReasonFlux: Hiërarchische LLM-redenering via het schalen van denkpatronen
ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates
February 10, 2025
Auteurs: Ling Yang, Zhaochen Yu, Bin Cui, Mengdi Wang
cs.AI
Samenvatting
We presenteren dat hiërarchisch LLM-redenering via het schalen van denkpatroons effectief de redeneerzoekruimte kan optimaliseren en de wiskundige redeneervaardigheden van krachtige LLM's zoals OpenAI o1-preview en DeepSeek V3 kan overtreffen. We trainen ons ReasonFlux-32B model met slechts 8 GPU's en introduceren drie innovaties: (i) een gestructureerde en generieke bibliotheek van denkpatronen, met ongeveer 500 hoog-niveau denkpatronen die in staat zijn om te generaliseren naar vergelijkbare of relevante redeneerproblemen; (ii) het uitvoeren van hiërarchisch versterkend leren op een reeks denkpatronen in plaats van lange CoTs, waarbij een basis LLM wordt geoptimaliseerd om een optimale traject voor denkpatronen te plannen voor het geleidelijk aanpakken van complexe problemen; (iii) een gloednieuw inferentieschaalsysteem dat hiërarchische LLM-redenering mogelijk maakt door denkpatronen adaptief te schalen op inferentietijd. Met een traject voor denkpatronen dat opeenvolgende denkpatronen bevat, brengt onze ReasonFlux-32B de wiskundige redeneervaardigheden aanzienlijk naar het niveau van de kunst. Opmerkelijk is dat het op de MATH benchmark een nauwkeurigheid van 91,2% behaalt en o1-preview met 6,7% overtreft. Op de USA Math Olympiad (AIME) benchmark lost ReasonFlux-32B gemiddeld 56,7% van de problemen op, waarbij het o1-preview en DeepSeek-V3 respectievelijk met 27% en 45% overtreft. Code: https://github.com/Gen-Verse/ReasonFlux
English
We present that hierarchical LLM reasoning via scaling thought templates can
effectively optimize the reasoning search space and outperform the mathematical
reasoning capabilities of powerful LLMs like OpenAI o1-preview and DeepSeek V3.
We train our ReasonFlux-32B model with only 8 GPUs and introduces three
innovations: (i) a structured and generic thought template library, containing
around 500 high-level thought templates capable of generalizing to similar or
relevant reasoning problems; (ii) performing hierarchical reinforcement
learning on a sequence of thought templates instead of long CoTs, optimizing a
base LLM to plan out an optimal template trajectory for gradually handling
complex problems; (iii) a brand new inference scaling system that enables
hierarchical LLM reasoning by adaptively scaling thought templates at inference
time. With a template trajectory containing sequential thought templates, our
ReasonFlux-32B significantly advances math reasoning capabilities to
state-of-the-art levels. Notably, on the MATH benchmark, it achieves an
accuracy of 91.2% and surpasses o1-preview by 6.7%. On the USA Math Olympiad
(AIME) benchmark, ReasonFlux-32B solves an average of 56.7% of problems,
surpassing o1-preview and DeepSeek-V3 by 27% and 45%, respectively. Code:
https://github.com/Gen-Verse/ReasonFluxSummary
AI-Generated Summary