"Сделано лучше, чем идеально: раскрытие эффективного рассуждения через структурированное многошаговое разложение"

Аннотация

Крупные модели рассуждений (Large Reasoning Models, LRMs) подвергаются критике за чрезмерно длинные цепочки рассуждений (Chain-of-Thought, CoT), необходимые для получения окончательного ответа, что приводит к высокой задержке первого токена и общей задержке. Как правило, CoT в LRMs смешивает несколько единиц мышления; каждая из них пытается сформировать кандидата на ответ на исходный запрос. Таким образом, естественной идеей для повышения эффективности является сокращение количества таких единиц. Однако тот факт, что единицы мышления в стандартном CoT не могут быть явно управляемы, делает эту задачу сложной. В данной статье представлен метод Multi-Turn Decomposition (MinD), который декодирует традиционный CoT в последовательность явных, структурированных и пошаговых взаимодействий, чтобы устранить этот разрыв. В MinD модель предоставляет многошаговый ответ на запрос, где каждый шаг включает единицу мышления и формирует соответствующий ответ. Последующие шаги могут отражать, проверять, корректировать или исследовать альтернативные подходы как к мышлению, так и к ответам предыдущих шагов. Это не только ускоряет получение ответа, но и позволяет явно контролировать итеративный процесс рассуждений (например, пользователи могут остановить или продолжить процесс на любом шаге). Мы следуем парадигме контролируемого тонкого настройки (Supervised Fine-Tuning, SFT) с последующим обучением с подкреплением (Reinforcement Learning, RL) для реализации MinD. Сначала мы переформулируем выходы LRM в многошаговый формат, используя подсказки другой крупной языковой модели (LLM), а затем настраиваем LRM на таких данных. Заметив, что настроенная модель склонна использовать даже больше токенов, чем исходная (вероятно, из-за того, что многошаговый формат вводит дополнительные токены ответа), мы предлагаем использовать алгоритмы RL, такие как GRPO, чтобы отдавать приоритет правильным ответам с меньшим количеством шагов. Обучившись на наборе данных MATH с использованием моделей R1-Distill, MinD может достичь сокращения использования выходных токенов и времени до первого токена (Time to First Token, TTFT) до ~70%, сохраняя при этом конкурентоспособные результаты на тестах рассуждений, таких как MATH-500, AIME24, AMC23 и GPQA-Diamond.

English

Large Reasoning Models (LRMs) are criticized for the excessively lengthy Chain-of-Thought (CoT) to derive the final answer, suffering from high first-token and overall latency. Typically, the CoT of LRMs mixes multiple thinking units; each unit attempts to produce a candidate answer to the original query. Hence, a natural idea to improve efficiency is to reduce the unit number. Yet, the fact that the thinking units in vanilla CoT cannot be explicitly managed renders doing so challenging. This paper introduces Multi-Turn Decomposition (MinD) to decode conventional CoT into a sequence of explicit, structured, and turn-wise interactions to bridge the gap. In MinD, the model provides a multi-turn response to the query, where each turn embraces a thinking unit and yields a corresponding answer. The subsequent turns can reflect, verify, revise, or explore alternative approaches to both the thinking and answer parts of earlier ones. This not only makes the answer delivered more swiftly, but also enables explicit controls over the iterative reasoning process (i.e., users may halt or continue at any turn). We follow a supervised fine-tuning (SFT) then reinforcement learning (RL) paradigm to realize MinD. We first rephrase the outputs of an LRM into multi-turn formats by prompting another LLM, and then tune the LRM with such data. Observing that the tuned model tends to consume even more tokens than the original one (probably due to that the multi-turn formats introduce additional answer tokens), we advocate leveraging RL algorithms like GRPO to prioritize correct outputs with fewer turns. Trained on the MATH dataset using R1-Distill models, MinD can achieve up to ~70% reduction in both output token usage and time to first token (TTFT), while maintaining competitive performance on reasoning benchmarks such as MATH-500, AIME24, AMC23, and GPQA-Diamond.

"Сделано лучше, чем идеально: раскрытие эффективного рассуждения через структурированное многошаговое разложение"

Done Is Better than Perfect: Unlocking Efficient Reasoning by Structured Multi-Turn Decomposition

Аннотация

Support