ReasonFlux: Raciocínio Hierárquico LLM via Escalonamento de Modelos de Pensamento
ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates
February 10, 2025
Autores: Ling Yang, Zhaochen Yu, Bin Cui, Mengdi Wang
cs.AI
Resumo
Apresentamos que o raciocínio hierárquico LLM por meio da escalonamento de modelos de pensamento pode otimizar efetivamente o espaço de busca de raciocínio e superar as capacidades de raciocínio matemático de LLMs poderosos como o OpenAI o1-preview e o DeepSeek V3. Treinamos nosso modelo ReasonFlux-32B com apenas 8 GPUs e introduzimos três inovações: (i) uma biblioteca de modelos de pensamento estruturada e genérica, contendo cerca de 500 modelos de pensamento de alto nível capazes de generalizar para problemas de raciocínio semelhantes ou relevantes; (ii) realizando aprendizado por reforço hierárquico em uma sequência de modelos de pensamento em vez de longos CoTs, otimizando um LLM base para planejar uma trajetória de modelo ideal para lidar gradualmente com problemas complexos; (iii) um novo sistema de escalonamento de inferência que permite o raciocínio hierárquico LLM escalonar adaptativamente modelos de pensamento no momento da inferência. Com uma trajetória de modelo contendo modelos de pensamento sequenciais, nosso ReasonFlux-32B avança significativamente as capacidades de raciocínio matemático para níveis de ponta. Notavelmente, no benchmark MATH, ele alcança uma precisão de 91,2% e supera o o1-preview em 6,7%. No benchmark da Olimpíada de Matemática dos EUA (AIME), o ReasonFlux-32B resolve em média 56,7% dos problemas, superando o o1-preview e o DeepSeek-V3 em 27% e 45%, respectivamente. Código: https://github.com/Gen-Verse/ReasonFlux
English
We present that hierarchical LLM reasoning via scaling thought templates can
effectively optimize the reasoning search space and outperform the mathematical
reasoning capabilities of powerful LLMs like OpenAI o1-preview and DeepSeek V3.
We train our ReasonFlux-32B model with only 8 GPUs and introduces three
innovations: (i) a structured and generic thought template library, containing
around 500 high-level thought templates capable of generalizing to similar or
relevant reasoning problems; (ii) performing hierarchical reinforcement
learning on a sequence of thought templates instead of long CoTs, optimizing a
base LLM to plan out an optimal template trajectory for gradually handling
complex problems; (iii) a brand new inference scaling system that enables
hierarchical LLM reasoning by adaptively scaling thought templates at inference
time. With a template trajectory containing sequential thought templates, our
ReasonFlux-32B significantly advances math reasoning capabilities to
state-of-the-art levels. Notably, on the MATH benchmark, it achieves an
accuracy of 91.2% and surpasses o1-preview by 6.7%. On the USA Math Olympiad
(AIME) benchmark, ReasonFlux-32B solves an average of 56.7% of problems,
surpassing o1-preview and DeepSeek-V3 by 27% and 45%, respectively. Code:
https://github.com/Gen-Verse/ReasonFlux