RelayGen: Intra-Generatie Modelwisseling voor Efficiënt Redeneren

Samenvatting

Grote redeneermodellen (LRM's) behalen sterke prestaties op complexe redeneertaken door het genereren van lange, meerstaps redeneertrajecten, maar schaling tijdens inferentie brengt aanzienlijke implementatiekosten met zich mee. Een grote uitdaging is dat de generatiemoeilijkheid varieert binnen een enkele uitvoer, terwijl bestaande efficiëntiegerichte benaderingen deze intra-generatievariaties ofwel negeren, ofwel vertrouwen op supervised token-level routing met een hoge systeemcomplexiteit. Wij presenteren RelayGen, een trainingsvrij, segment-level runtime model switching framework dat gebruikmaakt van moeilijkheidsvariaties in lange-redenering. Door offline analyse van generatieonzekerheid met behulp van token-waarschijnlijkheidsmarges, tonen we aan dat coarse-grained segment-level controle voldoende is om moeilijkheidsovergangen binnen een redeneertraject vast te leggen. RelayGen identificeert model-specifieke switch-cues die overgangen naar segmenten met lagere moeilijkheidsgraad signaleren en deelt de voortzetting daarvan dynamisch toe aan een kleiner model, terwijl redenering met een hoge moeilijkheidsgraad behouden blijft op het grote model. Over meerdere redeneerbenchmarks vermindert RelayGen de inferentielatentie aanzienlijk, terwijl het grootste deel van de nauwkeurigheid van grote modellen behouden blijft. In combinatie met speculatieve decodering bereikt RelayGen tot 2,2x end-to-end versnelling met minder dan 2% nauwkeurigheidsverlies, zonder extra training of geleerde routeringscomponenten nodig te hebben.

English

Large reasoning models (LRMs) achieve strong performance on complex reasoning tasks by generating long, multi-step reasoning trajectories, but inference-time scaling incurs substantial deployment cost. A key challenge is that generation difficulty varies within a single output, whereas existing efficiency-oriented approaches either ignore this intra-generation variation or rely on supervised token-level routing with high system complexity. We present RelayGen, a training-free, segment-level runtime model switching framework that exploits difficulty variation in long-form reasoning. Through offline analysis of generation uncertainty using token probability margins, we show that coarse-grained segment-level control is sufficient to capture difficulty transitions within a reasoning trajectory. RelayGen identifies model-specific switch cues that signal transitions to lower-difficulty segments and dynamically delegates their continuation to a smaller model, while preserving high-difficulty reasoning on the large model. Across multiple reasoning benchmarks, RelayGen substantially reduces inference latency while preserving most of the accuracy of large models. When combined with speculative decoding, RelayGen achieves up to 2.2times end-to-end speedup with less than 2\% accuracy degradation, without requiring additional training or learned routing components.

RelayGen: Intra-Generatie Modelwisseling voor Efficiënt Redeneren

RelayGen: Intra-Generation Model Switching for Efficient Reasoning

Samenvatting

Support