ChatPaper.aiChatPaper

ReasonFlux: Razonamiento jerárquico LLM a través de la ampliación de plantillas de pensamiento

ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates

February 10, 2025
Autores: Ling Yang, Zhaochen Yu, Bin Cui, Mengdi Wang
cs.AI

Resumen

Presentamos que el razonamiento jerárquico LLM a través de la ampliación de plantillas de pensamiento puede optimizar eficazmente el espacio de búsqueda de razonamiento y superar las capacidades de razonamiento matemático de potentes LLMs como OpenAI o1-preview y DeepSeek V3. Entrenamos nuestro modelo ReasonFlux-32B con solo 8 GPUs e introducimos tres innovaciones: (i) una biblioteca estructurada y genérica de plantillas de pensamiento, que contiene alrededor de 500 plantillas de pensamiento de alto nivel capaces de generalizar a problemas de razonamiento similares o relevantes; (ii) realizar aprendizaje por refuerzo jerárquico en una secuencia de plantillas de pensamiento en lugar de largos CoTs, optimizando un LLM base para planificar una trayectoria de plantillas óptima para manejar gradualmente problemas complejos; (iii) un nuevo sistema de escalado de inferencia que permite el razonamiento jerárquico LLM escalando adaptativamente las plantillas de pensamiento en tiempo de inferencia. Con una trayectoria de plantillas que contiene plantillas de pensamiento secuenciales, nuestro ReasonFlux-32B avanza significativamente las capacidades de razonamiento matemático a niveles de vanguardia. Notablemente, en el banco de pruebas MATH, logra una precisión del 91.2% y supera a o1-preview en un 6.7%. En el banco de pruebas de la Olimpiada Matemática de EE. UU. (AIME), ReasonFlux-32B resuelve un promedio del 56.7% de los problemas, superando a o1-preview y DeepSeek-V3 en un 27% y 45%, respectivamente. Código: https://github.com/Gen-Verse/ReasonFlux
English
We present that hierarchical LLM reasoning via scaling thought templates can effectively optimize the reasoning search space and outperform the mathematical reasoning capabilities of powerful LLMs like OpenAI o1-preview and DeepSeek V3. We train our ReasonFlux-32B model with only 8 GPUs and introduces three innovations: (i) a structured and generic thought template library, containing around 500 high-level thought templates capable of generalizing to similar or relevant reasoning problems; (ii) performing hierarchical reinforcement learning on a sequence of thought templates instead of long CoTs, optimizing a base LLM to plan out an optimal template trajectory for gradually handling complex problems; (iii) a brand new inference scaling system that enables hierarchical LLM reasoning by adaptively scaling thought templates at inference time. With a template trajectory containing sequential thought templates, our ReasonFlux-32B significantly advances math reasoning capabilities to state-of-the-art levels. Notably, on the MATH benchmark, it achieves an accuracy of 91.2% and surpasses o1-preview by 6.7%. On the USA Math Olympiad (AIME) benchmark, ReasonFlux-32B solves an average of 56.7% of problems, surpassing o1-preview and DeepSeek-V3 by 27% and 45%, respectively. Code: https://github.com/Gen-Verse/ReasonFlux

Summary

AI-Generated Summary

PDF213February 11, 2025