RelayLLM : Raisonnement efficace par décodage collaboratif
RelayLLM: Efficient Reasoning via Collaborative Decoding
January 8, 2026
papers.authors: Chengsong Huang, Tong Zheng, Langlin Huang, Jinyuan Li, Haolin Liu, Jiaxin Huang
cs.AI
papers.abstract
Les modèles de langage de grande taille (LLM) pour le raisonnement complexe sont souvent entravés par des coûts de calcul élevés et une latence importante, tandis que les modèles de langage de petite taille (SLM), bien que plus efficaces en ressources, manquent généralement de la capacité de raisonnement nécessaire. Les approches collaboratives existantes, telles que le cascadage ou le routage, opèrent à un niveau de granularité grossier en déléguant des requêtes entières aux LLM, ce qui entraîne un gaspillage computationnel significatif lorsque le SLM est capable de traiter la majorité des étapes de raisonnement. Pour résoudre ce problème, nous proposons RelayLLM, un nouveau cadre pour un raisonnement efficace via un décodage collaboratif au niveau des tokens. Contrairement aux routeurs, RelayLLM permet au SLM d'agir comme un contrôleur actif qui invoque dynamiquement le LLM uniquement pour les tokens critiques via une commande spéciale, "relayant" ainsi efficacement le processus de génération. Nous introduisons un cadre d'entraînement en deux étapes, incluant une phase d'échauffement et une optimisation de politique relative par groupe (GRPO), pour apprendre au modèle à équilibrer l'indépendance et la recherche stratégique d'aide. Les résultats empiriques sur six benchmarks démontrent que RelayLLM atteint une précision moyenne de 49,52 %, comblant efficacement l'écart de performance entre les deux modèles. Fait notable, ce résultat est obtenu en invoquant le LLM pour seulement 1,07 % de l'ensemble des tokens générés, offrant une réduction des coûts de 98,2 % par rapport à des routeurs aléatoires de performance équivalente.
English
Large Language Models (LLMs) for complex reasoning is often hindered by high computational costs and latency, while resource-efficient Small Language Models (SLMs) typically lack the necessary reasoning capacity. Existing collaborative approaches, such as cascading or routing, operate at a coarse granularity by offloading entire queries to LLMs, resulting in significant computational waste when the SLM is capable of handling the majority of reasoning steps. To address this, we propose RelayLLM, a novel framework for efficient reasoning via token-level collaborative decoding. Unlike routers, RelayLLM empowers the SLM to act as an active controller that dynamically invokes the LLM only for critical tokens via a special command, effectively "relaying" the generation process. We introduce a two-stage training framework, including warm-up and Group Relative Policy Optimization (GRPO) to teach the model to balance independence with strategic help-seeking. Empirical results across six benchmarks demonstrate that RelayLLM achieves an average accuracy of 49.52%, effectively bridging the performance gap between the two models. Notably, this is achieved by invoking the LLM for only 1.07% of the total generated tokens, offering a 98.2% cost reduction compared to performance-matched random routers.