Beter gedaan dan perfect: Efficiënte redenering ontgrendelen door gestructureerde meervoudige decompositie
Done Is Better than Perfect: Unlocking Efficient Reasoning by Structured Multi-Turn Decomposition
May 26, 2025
Auteurs: Zihao Zeng, Xuyao Huang, Boxiu Li, Hao Zhang, Zhijie Deng
cs.AI
Samenvatting
Large Reasoning Models (LRMs) worden bekritiseerd vanwege de excessief lange Chain-of-Thought (CoT) die nodig is om het uiteindelijke antwoord af te leiden, wat resulteert in een hoge eerste-token- en algehele latentie. Typisch mengt de CoT van LRMs meerdere denkeenheden; elke eenheid probeert een kandidaat-antwoord op de oorspronkelijke vraag te produceren. Daarom is een natuurlijk idee om de efficiëntie te verbeteren het verminderen van het aantal eenheden. Echter, het feit dat de denkeenheden in de standaard CoT niet expliciet kunnen worden beheerd, maakt dit uitdagend. Dit artikel introduceert Multi-Turn Decomposition (MinD) om de conventionele CoT te decoderen in een reeks expliciete, gestructureerde en beurtgewijze interacties om deze kloof te overbruggen. In MinD geeft het model een meervoudig antwoord op de vraag, waarbij elke beurt een denkeenheid omvat en een corresponderend antwoord oplevert. De daaropvolgende beurten kunnen reflecteren, verifiëren, reviseren of alternatieve benaderingen verkennen voor zowel het denkproces als de antwoorden van eerdere beurten. Dit maakt niet alleen het geleverde antwoord sneller, maar maakt ook expliciete controle mogelijk over het iteratieve redeneerproces (d.w.z., gebruikers kunnen op elk moment stoppen of doorgaan). We volgen een paradigma van supervised fine-tuning (SFT) gevolgd door reinforcement learning (RL) om MinD te realiseren. We herformuleren eerst de uitvoer van een LRM in meervoudige formaten door een andere LLM te prompten, en tunen vervolgens de LRM met dergelijke data. Omdat we opmerken dat het getunede model de neiging heeft nog meer tokens te verbruiken dan het originele model (waarschijnlijk omdat de meervoudige formaten extra antwoordtokens introduceren), pleiten we voor het benutten van RL-algoritmen zoals GRPO om correcte uitvoer met minder beurten te prioriteren. Getraind op de MATH-dataset met behulp van R1-Distill-modellen, kan MinD een reductie van tot ~70% bereiken in zowel het gebruik van uitvoertokens als de tijd tot de eerste token (TTFT), terwijl het competitieve prestaties behoudt op redeneerbenchmarks zoals MATH-500, AIME24, AMC23 en GPQA-Diamond.
English
Large Reasoning Models (LRMs) are criticized for the excessively lengthy
Chain-of-Thought (CoT) to derive the final answer, suffering from high
first-token and overall latency. Typically, the CoT of LRMs mixes multiple
thinking units; each unit attempts to produce a candidate answer to the
original query. Hence, a natural idea to improve efficiency is to reduce the
unit number. Yet, the fact that the thinking units in vanilla CoT cannot be
explicitly managed renders doing so challenging. This paper introduces
Multi-Turn Decomposition (MinD) to decode conventional CoT into a sequence of
explicit, structured, and turn-wise interactions to bridge the gap. In MinD,
the model provides a multi-turn response to the query, where each turn embraces
a thinking unit and yields a corresponding answer. The subsequent turns can
reflect, verify, revise, or explore alternative approaches to both the thinking
and answer parts of earlier ones. This not only makes the answer delivered more
swiftly, but also enables explicit controls over the iterative reasoning
process (i.e., users may halt or continue at any turn). We follow a supervised
fine-tuning (SFT) then reinforcement learning (RL) paradigm to realize MinD. We
first rephrase the outputs of an LRM into multi-turn formats by prompting
another LLM, and then tune the LRM with such data. Observing that the tuned
model tends to consume even more tokens than the original one (probably due to
that the multi-turn formats introduce additional answer tokens), we advocate
leveraging RL algorithms like GRPO to prioritize correct outputs with fewer
turns. Trained on the MATH dataset using R1-Distill models, MinD can achieve up
to ~70% reduction in both output token usage and time to first token (TTFT),
while maintaining competitive performance on reasoning benchmarks such as
MATH-500, AIME24, AMC23, and GPQA-Diamond.