ReasonFlux : Raisonnement LLM hiérarchique via la mise à l'échelle des modèles de pensée
ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates
February 10, 2025
Auteurs: Ling Yang, Zhaochen Yu, Bin Cui, Mengdi Wang
cs.AI
Résumé
Nous présentons que le raisonnement hiérarchique LLM via l'échelle des modèles de pensée peut optimiser efficacement l'espace de recherche du raisonnement et surpasser les capacités de raisonnement mathématique des puissants LLM comme OpenAI o1-preview et DeepSeek V3. Nous entraînons notre modèle ReasonFlux-32B avec seulement 8 GPU et introduisons trois innovations : (i) une bibliothèque de modèles de pensée structurée et générique, contenant environ 500 modèles de pensée de haut niveau capables de généraliser à des problèmes de raisonnement similaires ou pertinents ; (ii) réaliser un apprentissage par renforcement hiérarchique sur une séquence de modèles de pensée au lieu de longs CoTs, optimisant un LLM de base pour planifier une trajectoire de modèle optimale pour gérer progressivement des problèmes complexes ; (iii) un tout nouveau système de mise à l'échelle de l'inférence qui permet un raisonnement hiérarchique LLM en adaptant l'échelle des modèles de pensée au moment de l'inférence. Avec une trajectoire de modèle contenant des modèles de pensée séquentiels, notre ReasonFlux-32B fait progresser de manière significative les capacités de raisonnement mathématique à des niveaux de pointe. Notamment, sur le banc d'essai MATH, il atteint une précision de 91,2 % et dépasse o1-preview de 6,7 %. Sur le banc d'essai de l'Olympiade Américaine de Mathématiques (AIME), ReasonFlux-32B résout en moyenne 56,7 % des problèmes, surpassant o1-preview et DeepSeek-V3 de 27 % et 45 % respectivement. Code : https://github.com/Gen-Verse/ReasonFlux
English
We present that hierarchical LLM reasoning via scaling thought templates can
effectively optimize the reasoning search space and outperform the mathematical
reasoning capabilities of powerful LLMs like OpenAI o1-preview and DeepSeek V3.
We train our ReasonFlux-32B model with only 8 GPUs and introduces three
innovations: (i) a structured and generic thought template library, containing
around 500 high-level thought templates capable of generalizing to similar or
relevant reasoning problems; (ii) performing hierarchical reinforcement
learning on a sequence of thought templates instead of long CoTs, optimizing a
base LLM to plan out an optimal template trajectory for gradually handling
complex problems; (iii) a brand new inference scaling system that enables
hierarchical LLM reasoning by adaptively scaling thought templates at inference
time. With a template trajectory containing sequential thought templates, our
ReasonFlux-32B significantly advances math reasoning capabilities to
state-of-the-art levels. Notably, on the MATH benchmark, it achieves an
accuracy of 91.2% and surpasses o1-preview by 6.7%. On the USA Math Olympiad
(AIME) benchmark, ReasonFlux-32B solves an average of 56.7% of problems,
surpassing o1-preview and DeepSeek-V3 by 27% and 45%, respectively. Code:
https://github.com/Gen-Verse/ReasonFluxSummary
AI-Generated Summary