ReasonFlux: Ragionamento LLM Gerarchico tramite la Scalabilità dei Modelli di Pensiero
ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates
February 10, 2025
Autori: Ling Yang, Zhaochen Yu, Bin Cui, Mengdi Wang
cs.AI
Abstract
Presentiamo che il ragionamento gerarchico LLM tramite il ridimensionamento dei modelli di pensiero può ottimizzare efficacemente lo spazio di ricerca del ragionamento e superare le capacità di ragionamento matematico di potenti LLM come OpenAI o1-preview e DeepSeek V3. Addestriamo il nostro modello ReasonFlux-32B con soli 8 GPU e introduciamo tre innovazioni: (i) una libreria di modelli di pensiero strutturata e generica, contenente circa 500 modelli di pensiero di alto livello capaci di generalizzare a problemi di ragionamento simili o rilevanti; (ii) esecuzione di apprendimento gerarchico per rinforzo su una sequenza di modelli di pensiero anziché su lunghe CoTs, ottimizzando un LLM di base per pianificare una traiettoria di modelli ottimale per gestire gradualmente problemi complessi; (iii) un nuovo sistema di ridimensionamento dell'inferenza che consente il ragionamento gerarchico LLM ridimensionando in modo adattivo i modelli di pensiero al momento dell'inferenza. Con una traiettoria di modelli contenente modelli di pensiero sequenziali, il nostro ReasonFlux-32B fa progredire significativamente le capacità di ragionamento matematico ai livelli di ultima generazione. In particolare, sul benchmark MATH, raggiunge un'accuratezza del 91,2% e supera o1-preview del 6,7%. Sul benchmark della Olimpiade Matematica USA (AIME), ReasonFlux-32B risolve in media il 56,7% dei problemi, superando o1-preview e DeepSeek-V3 rispettivamente del 27% e del 45%. Codice: https://github.com/Gen-Verse/ReasonFlux
English
We present that hierarchical LLM reasoning via scaling thought templates can
effectively optimize the reasoning search space and outperform the mathematical
reasoning capabilities of powerful LLMs like OpenAI o1-preview and DeepSeek V3.
We train our ReasonFlux-32B model with only 8 GPUs and introduces three
innovations: (i) a structured and generic thought template library, containing
around 500 high-level thought templates capable of generalizing to similar or
relevant reasoning problems; (ii) performing hierarchical reinforcement
learning on a sequence of thought templates instead of long CoTs, optimizing a
base LLM to plan out an optimal template trajectory for gradually handling
complex problems; (iii) a brand new inference scaling system that enables
hierarchical LLM reasoning by adaptively scaling thought templates at inference
time. With a template trajectory containing sequential thought templates, our
ReasonFlux-32B significantly advances math reasoning capabilities to
state-of-the-art levels. Notably, on the MATH benchmark, it achieves an
accuracy of 91.2% and surpasses o1-preview by 6.7%. On the USA Math Olympiad
(AIME) benchmark, ReasonFlux-32B solves an average of 56.7% of problems,
surpassing o1-preview and DeepSeek-V3 by 27% and 45%, respectively. Code:
https://github.com/Gen-Verse/ReasonFluxSummary
AI-Generated Summary