ChatPaper.aiChatPaper

Opschalen van Speculatieve Decodering met Vooruitkijkend Redeneren

Scaling Speculative Decoding with Lookahead Reasoning

June 24, 2025
Auteurs: Yichao Fu, Rui Ge, Zelei Shao, Zhijie Deng, Hao Zhang
cs.AI

Samenvatting

Redeneermodellen blinken uit door lange ketens van gedachten te genereren, maar het decoderen van de resulterende duizenden tokens is traag. Token-level speculatief decoderen (SD) helpt, maar het voordeel is beperkt, omdat de kans dat een volledige gamma-token gok correct is, exponentieel afneemt naarmate gamma groeit. Dit betekent dat het toewijzen van meer rekenkracht voor langere tokenconcepten een algoritmisch plafond tegenkomt – waardoor de snelheidswinst bescheiden en hardware-onafhankelijk blijft. Wij verhogen dit plafond met Lookahead Reasoning, dat een tweede, stapniveau laag van parallellisme benut. Onze belangrijkste inzicht is dat redeneermodellen stap-voor-stap genereren, en elke stap alleen semantisch correct hoeft te zijn, niet exact token-matching. In Lookahead Reasoning stelt een lichtgewicht conceptmodel meerdere toekomstige stappen voor; het doelmodel breidt elk voorstel uit in één gebatchte doorloop, en een verifier behoudt semantisch correcte stappen terwijl het doelmodel eventuele mislukte stappen opnieuw genereert. Token-level SD werkt nog steeds binnen elke redeneerstap, waardoor de twee lagen van parallellisme zich vermenigvuldigen. We tonen aan dat Lookahead Reasoning de pieksnelheidswinst van SD zowel theoretisch als empirisch verhoogt. Over GSM8K, AIME en andere benchmarks verbetert Lookahead Reasoning de snelheidswinst van SD van 1,4x naar 2,1x terwijl de antwoordkwaliteit behouden blijft, en de snelheidswinst schaalt beter met extra GPU-doorvoer. Onze code is beschikbaar op https://github.com/hao-ai-lab/LookaheadReasoning.
English
Reasoning models excel by generating long chain-of-thoughts, but decoding the resulting thousands of tokens is slow. Token-level speculative decoding (SD) helps, but its benefit is capped, because the chance that an entire gamma-token guess is correct falls exponentially as gamma grows. This means allocating more compute for longer token drafts faces an algorithmic ceiling -- making the speedup modest and hardware-agnostic. We raise this ceiling with Lookahead Reasoning, which exploits a second, step-level layer of parallelism. Our key insight is that reasoning models generate step-by-step, and each step needs only to be semantically correct, not exact token matching. In Lookahead Reasoning, a lightweight draft model proposes several future steps; the target model expands each proposal in one batched pass, and a verifier keeps semantically correct steps while letting the target regenerate any that fail. Token-level SD still operates within each reasoning step, so the two layers of parallelism multiply. We show Lookahead Reasoning lifts the peak speedup of SD both theoretically and empirically. Across GSM8K, AIME, and other benchmarks, Lookahead Reasoning improves the speedup of SD from 1.4x to 2.1x while preserving answer quality, and its speedup scales better with additional GPU throughput. Our code is available at https://github.com/hao-ai-lab/LookaheadReasoning
PDF111June 25, 2025