RelayGen : Commutation de modèles intra-génération pour un raisonnement efficace
RelayGen: Intra-Generation Model Switching for Efficient Reasoning
February 6, 2026
papers.authors: Jiwon Song, Yoongon Kim, Jae-Joon Kim
cs.AI
papers.abstract
Les grands modèles de raisonnement (LRM) obtiennent des performances élevées sur des tâches de raisonnement complexes en générant de longues trajectoires de raisonnement multi-étapes, mais la mise à l'échelle lors de l'inférence entraîne des coûts de déploiement substantiels. Un défi majeur réside dans le fait que la difficulté de génération varie au sein d'une même sortie, alors que les approches actuelles axées sur l'efficacité ignorent cette variation intra-génération ou reposent sur un routage supervisé au niveau des tokens avec une complexité système élevée. Nous présentons RelayGen, un cadre de commutation dynamique de modèles au niveau des segments, sans apprentissage, qui exploite la variation de difficulté dans le raisonnement long. Par une analyse hors ligne de l'incertitude de génération utilisant les marges de probabilité des tokens, nous montrons qu'un contrôle grossier au niveau des segments suffit pour capturer les transitions de difficulté dans une trajectoire de raisonnement. RelayGen identifie des signaux de commutation spécifiques aux modèles qui indiquent des transitions vers des segments de difficulté réduite et délègue dynamiquement leur continuation à un modèle plus petit, tout en préservant le raisonnement de haute difficulté sur le grand modèle. Sur plusieurs benchmarks de raisonnement, RelayGen réduit considérablement la latence d'inférence tout en préservant la majeure partie de la précision des grands modèles. Combiné au décodage spéculatif, RelayGen atteint jusqu'à 2,2 fois d'accélération de bout en bout avec moins de 2 % de dégradation de précision, sans nécessiter d'apprentissage supplémentaire ni de composants de routage appris.
English
Large reasoning models (LRMs) achieve strong performance on complex reasoning tasks by generating long, multi-step reasoning trajectories, but inference-time scaling incurs substantial deployment cost. A key challenge is that generation difficulty varies within a single output, whereas existing efficiency-oriented approaches either ignore this intra-generation variation or rely on supervised token-level routing with high system complexity. We present RelayGen, a training-free, segment-level runtime model switching framework that exploits difficulty variation in long-form reasoning. Through offline analysis of generation uncertainty using token probability margins, we show that coarse-grained segment-level control is sufficient to capture difficulty transitions within a reasoning trajectory. RelayGen identifies model-specific switch cues that signal transitions to lower-difficulty segments and dynamically delegates their continuation to a smaller model, while preserving high-difficulty reasoning on the large model. Across multiple reasoning benchmarks, RelayGen substantially reduces inference latency while preserving most of the accuracy of large models. When combined with speculative decoding, RelayGen achieves up to 2.2times end-to-end speedup with less than 2\% accuracy degradation, without requiring additional training or learned routing components.