RelayGen: Cambio de Modelo Intra-Generación para un Razonamiento Eficiente
RelayGen: Intra-Generation Model Switching for Efficient Reasoning
February 6, 2026
Autores: Jiwon Song, Yoongon Kim, Jae-Joon Kim
cs.AI
Resumen
Los grandes modelos de razonamiento (LRM) logran un alto rendimiento en tareas complejas de razonamiento mediante la generación de trayectorias de razonamiento largas y multi-etapa, pero la escalabilidad en tiempo de inferencia conlleva un coste de despliegue sustancial. Un desafío clave es que la dificultad de generación varía dentro de una única salida, mientras que los enfoques existentes orientados a la eficiencia ignoran esta variación intra-generación o dependen de un enrutamiento supervisado a nivel de token con alta complejidad del sistema. Presentamos RelayGen, un marco de conmutación dinámica de modelos a nivel de segmento, que no requiere entrenamiento y aprovecha la variación de dificultad en el razonamiento de larga duración. Mediante un análisis offline de la incertidumbre de generación usando márgenes de probabilidad de tokens, demostramos que un control a nivel de segmento de grano grueso es suficiente para capturar las transiciones de dificultad dentro de una trayectoria de razonamiento. RelayGen identifica señales de conmutación específicas del modelo que indican transiciones a segmentos de menor dificultad y delega dinámicamente su continuación a un modelo más pequeño, preservando el razonamiento de alta dificultad en el modelo grande. En múltiples benchmarks de razonamiento, RelayGen reduce sustancialmente la latencia de inferencia preservando la mayor parte de la precisión de los modelos grandes. Cuando se combina con decodificación especulativa, RelayGen logra hasta 2.2 veces de aceleración extremo a extremo con menos del 2\% de degradación en precisión, sin requerir entrenamiento adicional ni componentes de enrutamiento aprendidos.
English
Large reasoning models (LRMs) achieve strong performance on complex reasoning tasks by generating long, multi-step reasoning trajectories, but inference-time scaling incurs substantial deployment cost. A key challenge is that generation difficulty varies within a single output, whereas existing efficiency-oriented approaches either ignore this intra-generation variation or rely on supervised token-level routing with high system complexity. We present RelayGen, a training-free, segment-level runtime model switching framework that exploits difficulty variation in long-form reasoning. Through offline analysis of generation uncertainty using token probability margins, we show that coarse-grained segment-level control is sufficient to capture difficulty transitions within a reasoning trajectory. RelayGen identifies model-specific switch cues that signal transitions to lower-difficulty segments and dynamically delegates their continuation to a smaller model, while preserving high-difficulty reasoning on the large model. Across multiple reasoning benchmarks, RelayGen substantially reduces inference latency while preserving most of the accuracy of large models. When combined with speculative decoding, RelayGen achieves up to 2.2times end-to-end speedup with less than 2\% accuracy degradation, without requiring additional training or learned routing components.