ReasonFlux: Hierarchisches LLM-Argumentieren über skalierte Gedankenvorlagen
ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates
February 10, 2025
Autoren: Ling Yang, Zhaochen Yu, Bin Cui, Mengdi Wang
cs.AI
Zusammenfassung
Wir präsentieren, dass hierarchisches LLM-Argumentieren über das Skalieren von Gedankenvorlagen effektiv den Argumentationssuchraum optimieren kann und die mathematischen Argumentationsfähigkeiten leistungsstarker LLMs wie OpenAI o1-preview und DeepSeek V3 übertrifft. Wir trainieren unser ReasonFlux-32B-Modell mit nur 8 GPUs und führen drei Innovationen ein: (i) eine strukturierte und generische Gedankenvorlagenbibliothek, die etwa 500 hochrangige Gedankenvorlagen enthält, die in der Lage sind, auf ähnliche oder relevante Argumentationsprobleme zu verallgemeinern; (ii) die Durchführung hierarchischen Verstärkungslernens an einer Sequenz von Gedankenvorlagen anstelle von langen CoTs, wodurch ein Basis-LLM optimiert wird, um eine optimale Vorlagen-Trajektorie zur schrittweisen Bewältigung komplexer Probleme zu planen; (iii) ein brandneues Inferenzskalierungssystem, das hierarchisches LLM-Argumentieren ermöglicht, indem Gedankenvorlagen zur Inferenzzeit adaptiv skaliert werden. Mit einer Vorlagen-Trajektorie, die aufeinanderfolgende Gedankenvorlagen enthält, verbessert unser ReasonFlux-32B die mathematischen Argumentationsfähigkeiten signifikant auf den Stand der Technik. Bemerkenswerterweise erreicht es auf dem MATH-Benchmark eine Genauigkeit von 91,2% und übertrifft o1-preview um 6,7%. Auf dem USA Mathematik-Olympiade (AIME) Benchmark löst ReasonFlux-32B durchschnittlich 56,7% der Probleme, wobei es o1-preview und DeepSeek-V3 um 27% bzw. 45% übertrifft. Code: https://github.com/Gen-Verse/ReasonFlux
English
We present that hierarchical LLM reasoning via scaling thought templates can
effectively optimize the reasoning search space and outperform the mathematical
reasoning capabilities of powerful LLMs like OpenAI o1-preview and DeepSeek V3.
We train our ReasonFlux-32B model with only 8 GPUs and introduces three
innovations: (i) a structured and generic thought template library, containing
around 500 high-level thought templates capable of generalizing to similar or
relevant reasoning problems; (ii) performing hierarchical reinforcement
learning on a sequence of thought templates instead of long CoTs, optimizing a
base LLM to plan out an optimal template trajectory for gradually handling
complex problems; (iii) a brand new inference scaling system that enables
hierarchical LLM reasoning by adaptively scaling thought templates at inference
time. With a template trajectory containing sequential thought templates, our
ReasonFlux-32B significantly advances math reasoning capabilities to
state-of-the-art levels. Notably, on the MATH benchmark, it achieves an
accuracy of 91.2% and surpasses o1-preview by 6.7%. On the USA Math Olympiad
(AIME) benchmark, ReasonFlux-32B solves an average of 56.7% of problems,
surpassing o1-preview and DeepSeek-V3 by 27% and 45%, respectively. Code:
https://github.com/Gen-Verse/ReasonFluxSummary
AI-Generated Summary