Erledigt ist besser als perfekt: Effizientes Schließen durch strukturierte Mehrschritt-Zerlegung freisetzen

papers.abstract

Große Reasoning-Modelle (LRMs) werden dafür kritisiert, dass sie übermäßig lange Denkketten (Chain-of-Thought, CoT) benötigen, um die endgültige Antwort abzuleiten, was zu hoher Latenz beim ersten Token und insgesamt führt. Typischerweise vermischt die CoT von LRMs mehrere Denkeinheiten; jede Einheit versucht, eine mögliche Antwort auf die ursprüngliche Anfrage zu erzeugen. Daher liegt die naheliegende Idee zur Effizienzsteigerung darin, die Anzahl der Einheiten zu reduzieren. Allerdings macht die Tatsache, dass die Denkeinheiten in der herkömmlichen CoT nicht explizit verwaltet werden können, dies zu einer Herausforderung. Dieses Paper stellt Multi-Turn Decomposition (MinD) vor, um die herkömmliche CoT in eine Sequenz expliziter, strukturierter und turn-basierter Interaktionen zu decodieren und so die Lücke zu schließen. In MinD liefert das Modell eine mehrstufige Antwort auf die Anfrage, wobei jede Stufe eine Denkeinheit umfasst und eine entsprechende Antwort liefert. Die nachfolgenden Stufen können die Denkprozesse und Antworten der vorherigen Stufen reflektieren, überprüfen, revidieren oder alternative Ansätze erkunden. Dies ermöglicht nicht nur eine schnellere Antwortlieferung, sondern auch eine explizite Kontrolle über den iterativen Denkprozess (d.h., Benutzer können den Prozess an jeder Stufe anhalten oder fortsetzen). Wir folgen einem Paradigma aus Supervised Fine-Tuning (SFT) und anschließendem Reinforcement Learning (RL), um MinD zu realisieren. Zunächst formulieren wir die Ausgaben eines LRMs in mehrstufige Formate um, indem wir ein weiteres LLM anweisen, und trainieren dann das LRM mit diesen Daten. Da wir beobachten, dass das trainierte Modell tendenziell sogar mehr Tokens verbraucht als das ursprüngliche (wahrscheinlich weil die mehrstufigen Formate zusätzliche Antwort-Tokens einführen), plädieren wir dafür, RL-Algorithmen wie GRPO zu nutzen, um korrekte Ausgaben mit weniger Stufen zu priorisieren. Auf dem MATH-Datensatz mit R1-Distill-Modellen trainiert, kann MinD eine Reduktion der Ausgabe-Tokens und der Zeit bis zum ersten Token (TTFT) von bis zu ~70 % erreichen, während es eine wettbewerbsfähige Leistung auf Reasoning-Benchmarks wie MATH-500, AIME24, AMC23 und GPQA-Diamond beibehält.

English

Large Reasoning Models (LRMs) are criticized for the excessively lengthy Chain-of-Thought (CoT) to derive the final answer, suffering from high first-token and overall latency. Typically, the CoT of LRMs mixes multiple thinking units; each unit attempts to produce a candidate answer to the original query. Hence, a natural idea to improve efficiency is to reduce the unit number. Yet, the fact that the thinking units in vanilla CoT cannot be explicitly managed renders doing so challenging. This paper introduces Multi-Turn Decomposition (MinD) to decode conventional CoT into a sequence of explicit, structured, and turn-wise interactions to bridge the gap. In MinD, the model provides a multi-turn response to the query, where each turn embraces a thinking unit and yields a corresponding answer. The subsequent turns can reflect, verify, revise, or explore alternative approaches to both the thinking and answer parts of earlier ones. This not only makes the answer delivered more swiftly, but also enables explicit controls over the iterative reasoning process (i.e., users may halt or continue at any turn). We follow a supervised fine-tuning (SFT) then reinforcement learning (RL) paradigm to realize MinD. We first rephrase the outputs of an LRM into multi-turn formats by prompting another LLM, and then tune the LRM with such data. Observing that the tuned model tends to consume even more tokens than the original one (probably due to that the multi-turn formats introduce additional answer tokens), we advocate leveraging RL algorithms like GRPO to prioritize correct outputs with fewer turns. Trained on the MATH dataset using R1-Distill models, MinD can achieve up to ~70% reduction in both output token usage and time to first token (TTFT), while maintaining competitive performance on reasoning benchmarks such as MATH-500, AIME24, AMC23, and GPQA-Diamond.

Erledigt ist besser als perfekt: Effizientes Schließen durch strukturierte Mehrschritt-Zerlegung freisetzen

Done Is Better than Perfect: Unlocking Efficient Reasoning by Structured Multi-Turn Decomposition

papers.abstract

Support