ReasonFlux: Иерархическое логико-вероятностное моделирование через масштабирование шаблонов мышления
ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates
February 10, 2025
Авторы: Ling Yang, Zhaochen Yu, Bin Cui, Mengdi Wang
cs.AI
Аннотация
Мы представляем, что иерархическое логико-вероятностное моделирование с использованием масштабирования шаблонов мыслей может эффективно оптимизировать пространство поиска рассуждений и превзойти математические способности мощных LLM, таких как OpenAI o1-preview и DeepSeek V3. Мы обучаем нашу модель ReasonFlux-32B с использованием всего 8 GPU и вводим три инновации: (i) структурированную и универсальную библиотеку шаблонов мыслей, содержащую около 500 высокоуровневых шаблонов мыслей, способных обобщать аналогичные или схожие проблемы рассуждений; (ii) выполнение иерархического обучения с подкреплением на последовательности шаблонов мыслей вместо длинных CoTs, оптимизация базового LLM для планирования оптимальной траектории шаблонов для постепенного решения сложных проблем; (iii) новая система масштабирования вывода, позволяющая иерархическое логико-вероятностное моделирование путем адаптивного масштабирования шаблонов мыслей во время вывода. С последовательностью шаблонов мыслей на траектории шаблонов наш ReasonFlux-32B значительно продвигает математические способности рассуждений на уровень передовых технологий. Заметно, на тесте MATH достигается точность 91,2%, превосходя o1-preview на 6,7%. На тесте USA Math Olympiad (AIME) ReasonFlux-32B решает в среднем 56,7% задач, превосходя o1-preview и DeepSeek-V3 на 27% и 45% соответственно. Код: https://github.com/Gen-Verse/ReasonFlux
English
We present that hierarchical LLM reasoning via scaling thought templates can
effectively optimize the reasoning search space and outperform the mathematical
reasoning capabilities of powerful LLMs like OpenAI o1-preview and DeepSeek V3.
We train our ReasonFlux-32B model with only 8 GPUs and introduces three
innovations: (i) a structured and generic thought template library, containing
around 500 high-level thought templates capable of generalizing to similar or
relevant reasoning problems; (ii) performing hierarchical reinforcement
learning on a sequence of thought templates instead of long CoTs, optimizing a
base LLM to plan out an optimal template trajectory for gradually handling
complex problems; (iii) a brand new inference scaling system that enables
hierarchical LLM reasoning by adaptively scaling thought templates at inference
time. With a template trajectory containing sequential thought templates, our
ReasonFlux-32B significantly advances math reasoning capabilities to
state-of-the-art levels. Notably, on the MATH benchmark, it achieves an
accuracy of 91.2% and surpasses o1-preview by 6.7%. On the USA Math Olympiad
(AIME) benchmark, ReasonFlux-32B solves an average of 56.7% of problems,
surpassing o1-preview and DeepSeek-V3 by 27% and 45%, respectively. Code:
https://github.com/Gen-Verse/ReasonFluxSummary
AI-Generated Summary