Beter gedaan dan perfect: Efficiënte redenering ontgrendelen door gestructureerde meervoudige decompositie

Samenvatting

Large Reasoning Models (LRMs) worden bekritiseerd vanwege de excessief lange Chain-of-Thought (CoT) die nodig is om het uiteindelijke antwoord af te leiden, wat resulteert in een hoge eerste-token- en algehele latentie. Typisch mengt de CoT van LRMs meerdere denkeenheden; elke eenheid probeert een kandidaat-antwoord op de oorspronkelijke vraag te produceren. Daarom is een natuurlijk idee om de efficiëntie te verbeteren het verminderen van het aantal eenheden. Echter, het feit dat de denkeenheden in de standaard CoT niet expliciet kunnen worden beheerd, maakt dit uitdagend. Dit artikel introduceert Multi-Turn Decomposition (MinD) om de conventionele CoT te decoderen in een reeks expliciete, gestructureerde en beurtgewijze interacties om deze kloof te overbruggen. In MinD geeft het model een meervoudig antwoord op de vraag, waarbij elke beurt een denkeenheid omvat en een corresponderend antwoord oplevert. De daaropvolgende beurten kunnen reflecteren, verifiëren, reviseren of alternatieve benaderingen verkennen voor zowel het denkproces als de antwoorden van eerdere beurten. Dit maakt niet alleen het geleverde antwoord sneller, maar maakt ook expliciete controle mogelijk over het iteratieve redeneerproces (d.w.z., gebruikers kunnen op elk moment stoppen of doorgaan). We volgen een paradigma van supervised fine-tuning (SFT) gevolgd door reinforcement learning (RL) om MinD te realiseren. We herformuleren eerst de uitvoer van een LRM in meervoudige formaten door een andere LLM te prompten, en tunen vervolgens de LRM met dergelijke data. Omdat we opmerken dat het getunede model de neiging heeft nog meer tokens te verbruiken dan het originele model (waarschijnlijk omdat de meervoudige formaten extra antwoordtokens introduceren), pleiten we voor het benutten van RL-algoritmen zoals GRPO om correcte uitvoer met minder beurten te prioriteren. Getraind op de MATH-dataset met behulp van R1-Distill-modellen, kan MinD een reductie van tot ~70% bereiken in zowel het gebruik van uitvoertokens als de tijd tot de eerste token (TTFT), terwijl het competitieve prestaties behoudt op redeneerbenchmarks zoals MATH-500, AIME24, AMC23 en GPQA-Diamond.

English

Large Reasoning Models (LRMs) are criticized for the excessively lengthy Chain-of-Thought (CoT) to derive the final answer, suffering from high first-token and overall latency. Typically, the CoT of LRMs mixes multiple thinking units; each unit attempts to produce a candidate answer to the original query. Hence, a natural idea to improve efficiency is to reduce the unit number. Yet, the fact that the thinking units in vanilla CoT cannot be explicitly managed renders doing so challenging. This paper introduces Multi-Turn Decomposition (MinD) to decode conventional CoT into a sequence of explicit, structured, and turn-wise interactions to bridge the gap. In MinD, the model provides a multi-turn response to the query, where each turn embraces a thinking unit and yields a corresponding answer. The subsequent turns can reflect, verify, revise, or explore alternative approaches to both the thinking and answer parts of earlier ones. This not only makes the answer delivered more swiftly, but also enables explicit controls over the iterative reasoning process (i.e., users may halt or continue at any turn). We follow a supervised fine-tuning (SFT) then reinforcement learning (RL) paradigm to realize MinD. We first rephrase the outputs of an LRM into multi-turn formats by prompting another LLM, and then tune the LRM with such data. Observing that the tuned model tends to consume even more tokens than the original one (probably due to that the multi-turn formats introduce additional answer tokens), we advocate leveraging RL algorithms like GRPO to prioritize correct outputs with fewer turns. Trained on the MATH dataset using R1-Distill models, MinD can achieve up to ~70% reduction in both output token usage and time to first token (TTFT), while maintaining competitive performance on reasoning benchmarks such as MATH-500, AIME24, AMC23, and GPQA-Diamond.

Beter gedaan dan perfect: Efficiënte redenering ontgrendelen door gestructureerde meervoudige decompositie

Done Is Better than Perfect: Unlocking Efficient Reasoning by Structured Multi-Turn Decomposition

Samenvatting

Support