RelayLLM: Razonamiento Eficiente mediante Decodificación Colaborativa
RelayLLM: Efficient Reasoning via Collaborative Decoding
January 8, 2026
Autores: Chengsong Huang, Tong Zheng, Langlin Huang, Jinyuan Li, Haolin Liu, Jiaxin Huang
cs.AI
Resumen
Los Modelos de Lenguaje Grandes (LLM) para el razonamiento complejo a menudo se ven obstaculizados por altos costes computacionales y latencia, mientras que los Modelos de Lenguaje Pequeños (SLM) eficientes en recursos generalmente carecen de la capacidad de razonamiento necesaria. Los enfoques colaborativos existentes, como la cascada o el enrutamiento, operan con una granularidad gruesa, descargando consultas completas a los LLM, lo que resulta en un desperdicio computacional significativo cuando el SLM es capaz de manejar la mayoría de los pasos de razonamiento. Para abordar esto, proponemos RelayLLM, un marco novedoso para el razonamiento eficiente mediante decodificación colaborativa a nivel de token. A diferencia de los enrutadores, RelayLLM permite que el SLM actúe como un controlador activo que invoca dinámicamente al LLM solo para tokens críticos mediante un comando especial, "relevando" efectivamente el proceso de generación. Introducimos un marco de entrenamiento de dos etapas, que incluye calentamiento y Optimización de la Política Relativa de Grupo (GRPO), para enseñar al modelo a equilibrar la independencia con la búsqueda estratégica de ayuda. Los resultados empíricos en seis puntos de referencia demuestran que RelayLLM logra una precisión promedio del 49.52%, cerrando efectivamente la brecha de rendimiento entre los dos modelos. Notablemente, esto se logra invocando al LLM para solo el 1.07% del total de tokens generados, ofreciendo una reducción de costes del 98.2% en comparación con enrutadores aleatorios de rendimiento equivalente.
English
Large Language Models (LLMs) for complex reasoning is often hindered by high computational costs and latency, while resource-efficient Small Language Models (SLMs) typically lack the necessary reasoning capacity. Existing collaborative approaches, such as cascading or routing, operate at a coarse granularity by offloading entire queries to LLMs, resulting in significant computational waste when the SLM is capable of handling the majority of reasoning steps. To address this, we propose RelayLLM, a novel framework for efficient reasoning via token-level collaborative decoding. Unlike routers, RelayLLM empowers the SLM to act as an active controller that dynamically invokes the LLM only for critical tokens via a special command, effectively "relaying" the generation process. We introduce a two-stage training framework, including warm-up and Group Relative Policy Optimization (GRPO) to teach the model to balance independence with strategic help-seeking. Empirical results across six benchmarks demonstrate that RelayLLM achieves an average accuracy of 49.52%, effectively bridging the performance gap between the two models. Notably, this is achieved by invoking the LLM for only 1.07% of the total generated tokens, offering a 98.2% cost reduction compared to performance-matched random routers.