ChatPaper.aiChatPaper

RelayGen: Intra-Generations-Modellwechsel für effizientes Schließen

RelayGen: Intra-Generation Model Switching for Efficient Reasoning

February 6, 2026
papers.authors: Jiwon Song, Yoongon Kim, Jae-Joon Kim
cs.AI

papers.abstract

Große Reasoning-Modelle (LRMs) erzielen eine hohe Leistung bei komplexen Reasoning-Aufgaben, indem sie lange, mehrstufige Reasoning-Trajektorien generieren. Die Skalierung zur Inferenzzeit verursacht jedoch erhebliche Bereitstellungskosten. Eine zentrale Herausforderung besteht darin, dass sich der Generierungsaufwand innerhalb einer einzelnen Ausgabe unterscheidet, während bestehende effizienzorientierte Ansätze diese Intra-Generierungs-Variation entweder ignorieren oder auf überwachtes Token-Level-Routing mit hoher Systemkomplexität angewiesen sind. Wir stellen RelayGen vor, ein trainierungsfreies, segmentbasiertes Laufzeit-Modellwechsel-Framework, das die Schwankungen im Aufwand beim langen Reasoning ausnutzt. Durch eine Offline-Analyse der Generierungsunsicherheit mittels Token-Wahrscheinlichkeitsmargen zeigen wir, dass eine grobgranulare, segmentbasierte Steuerung ausreicht, um Schwierigkeitsübergänge innerhalb einer Reasoning-Trajektorie zu erfassen. RelayGen identifiziert modellspezifische Wechselhinweise, die den Übergang zu Segmenten mit geringerem Schwierigkeitsgrad signalisieren, und delegiert deren Fortsetzung dynamisch an ein kleineres Modell, während das Reasoning mit hohem Schwierigkeitsgrad auf dem großen Modell erhalten bleibt. Über mehrere Reasoning-Benchmarks hinweg reduziert RelayGen die Inferenzlatenz erheblich, während der Großteil der Genauigkeit der großen Modelle erhalten bleibt. In Kombination mit spekulativer Dekodierung erreicht RelayGen eine bis zu 2,2-fache End-zu-Ende-Beschleunigung bei einem Genauigkeitsverlust von weniger als 2 %, ohne dass zusätzliches Training oder gelernte Routing-Komponenten erforderlich sind.
English
Large reasoning models (LRMs) achieve strong performance on complex reasoning tasks by generating long, multi-step reasoning trajectories, but inference-time scaling incurs substantial deployment cost. A key challenge is that generation difficulty varies within a single output, whereas existing efficiency-oriented approaches either ignore this intra-generation variation or rely on supervised token-level routing with high system complexity. We present RelayGen, a training-free, segment-level runtime model switching framework that exploits difficulty variation in long-form reasoning. Through offline analysis of generation uncertainty using token probability margins, we show that coarse-grained segment-level control is sufficient to capture difficulty transitions within a reasoning trajectory. RelayGen identifies model-specific switch cues that signal transitions to lower-difficulty segments and dynamically delegates their continuation to a smaller model, while preserving high-difficulty reasoning on the large model. Across multiple reasoning benchmarks, RelayGen substantially reduces inference latency while preserving most of the accuracy of large models. When combined with speculative decoding, RelayGen achieves up to 2.2times end-to-end speedup with less than 2\% accuracy degradation, without requiring additional training or learned routing components.
PDF112February 11, 2026