"Сделано лучше, чем идеально: раскрытие эффективного рассуждения через структурированное многошаговое разложение"
Done Is Better than Perfect: Unlocking Efficient Reasoning by Structured Multi-Turn Decomposition
May 26, 2025
Авторы: Zihao Zeng, Xuyao Huang, Boxiu Li, Hao Zhang, Zhijie Deng
cs.AI
Аннотация
Крупные модели рассуждений (Large Reasoning Models, LRMs) подвергаются критике за чрезмерно длинные цепочки рассуждений (Chain-of-Thought, CoT), необходимые для получения окончательного ответа, что приводит к высокой задержке первого токена и общей задержке. Как правило, CoT в LRMs смешивает несколько единиц мышления; каждая из них пытается сформировать кандидата на ответ на исходный запрос. Таким образом, естественной идеей для повышения эффективности является сокращение количества таких единиц. Однако тот факт, что единицы мышления в стандартном CoT не могут быть явно управляемы, делает эту задачу сложной. В данной статье представлен метод Multi-Turn Decomposition (MinD), который декодирует традиционный CoT в последовательность явных, структурированных и пошаговых взаимодействий, чтобы устранить этот разрыв. В MinD модель предоставляет многошаговый ответ на запрос, где каждый шаг включает единицу мышления и формирует соответствующий ответ. Последующие шаги могут отражать, проверять, корректировать или исследовать альтернативные подходы как к мышлению, так и к ответам предыдущих шагов. Это не только ускоряет получение ответа, но и позволяет явно контролировать итеративный процесс рассуждений (например, пользователи могут остановить или продолжить процесс на любом шаге). Мы следуем парадигме контролируемого тонкого настройки (Supervised Fine-Tuning, SFT) с последующим обучением с подкреплением (Reinforcement Learning, RL) для реализации MinD. Сначала мы переформулируем выходы LRM в многошаговый формат, используя подсказки другой крупной языковой модели (LLM), а затем настраиваем LRM на таких данных. Заметив, что настроенная модель склонна использовать даже больше токенов, чем исходная (вероятно, из-за того, что многошаговый формат вводит дополнительные токены ответа), мы предлагаем использовать алгоритмы RL, такие как GRPO, чтобы отдавать приоритет правильным ответам с меньшим количеством шагов. Обучившись на наборе данных MATH с использованием моделей R1-Distill, MinD может достичь сокращения использования выходных токенов и времени до первого токена (Time to First Token, TTFT) до ~70%, сохраняя при этом конкурентоспособные результаты на тестах рассуждений, таких как MATH-500, AIME24, AMC23 и GPQA-Diamond.
English
Large Reasoning Models (LRMs) are criticized for the excessively lengthy
Chain-of-Thought (CoT) to derive the final answer, suffering from high
first-token and overall latency. Typically, the CoT of LRMs mixes multiple
thinking units; each unit attempts to produce a candidate answer to the
original query. Hence, a natural idea to improve efficiency is to reduce the
unit number. Yet, the fact that the thinking units in vanilla CoT cannot be
explicitly managed renders doing so challenging. This paper introduces
Multi-Turn Decomposition (MinD) to decode conventional CoT into a sequence of
explicit, structured, and turn-wise interactions to bridge the gap. In MinD,
the model provides a multi-turn response to the query, where each turn embraces
a thinking unit and yields a corresponding answer. The subsequent turns can
reflect, verify, revise, or explore alternative approaches to both the thinking
and answer parts of earlier ones. This not only makes the answer delivered more
swiftly, but also enables explicit controls over the iterative reasoning
process (i.e., users may halt or continue at any turn). We follow a supervised
fine-tuning (SFT) then reinforcement learning (RL) paradigm to realize MinD. We
first rephrase the outputs of an LRM into multi-turn formats by prompting
another LLM, and then tune the LRM with such data. Observing that the tuned
model tends to consume even more tokens than the original one (probably due to
that the multi-turn formats introduce additional answer tokens), we advocate
leveraging RL algorithms like GRPO to prioritize correct outputs with fewer
turns. Trained on the MATH dataset using R1-Distill models, MinD can achieve up
to ~70% reduction in both output token usage and time to first token (TTFT),
while maintaining competitive performance on reasoning benchmarks such as
MATH-500, AIME24, AMC23, and GPQA-Diamond.Summary
AI-Generated Summary