RelayLLM: 協調的デコードによる効率的な推論
RelayLLM: Efficient Reasoning via Collaborative Decoding
January 8, 2026
著者: Chengsong Huang, Tong Zheng, Langlin Huang, Jinyuan Li, Haolin Liu, Jiaxin Huang
cs.AI
要旨
複雑な推論における大規模言語モデル(LLM)の利用は、高い計算コストと遅延によってしばしば妨げられる一方で、リソース効率の良い小規模言語モデル(SLM)は通常、必要な推論能力を欠いています。既存の連携手法(カスケードやルーティングなど)は、クエリ全体をLLMにオフロードするという粗い粒度で動作するため、SLMが推論ステップの大部分を処理可能な場合に著しい計算リソースの浪費が生じます。この問題に対処するため、我々はトークンレベルの連携デコーディングによる効率的な推論フレームワーク「RelayLLM」を提案します。ルーターとは異なり、RelayLLMはSLMを能動的な制御器として機能させ、重要なトークンのみを特別なコマンド経由で動的にLLMに委譲することで、生成プロセスを効果的に「リレー」します。また、ウォームアップ段階とGroup Relative Policy Optimization(GRPO)を含む2段階の訓練フレームワークを導入し、モデルが自立性と戦略的な支援要請のバランスを取れるように指導します。6つのベンチマークによる実証実験では、RelayLLMが平均精度49.52%を達成し、両モデル間の性能差を効果的に埋めることが示されました。特にこれは、生成全トークンのわずか1.07%に対してのみLLMを呼び出すことで実現され、性能が同等のランダムルーターと比較して98.2%のコスト削減を実現しています。
English
Large Language Models (LLMs) for complex reasoning is often hindered by high computational costs and latency, while resource-efficient Small Language Models (SLMs) typically lack the necessary reasoning capacity. Existing collaborative approaches, such as cascading or routing, operate at a coarse granularity by offloading entire queries to LLMs, resulting in significant computational waste when the SLM is capable of handling the majority of reasoning steps. To address this, we propose RelayLLM, a novel framework for efficient reasoning via token-level collaborative decoding. Unlike routers, RelayLLM empowers the SLM to act as an active controller that dynamically invokes the LLM only for critical tokens via a special command, effectively "relaying" the generation process. We introduce a two-stage training framework, including warm-up and Group Relative Policy Optimization (GRPO) to teach the model to balance independence with strategic help-seeking. Empirical results across six benchmarks demonstrate that RelayLLM achieves an average accuracy of 49.52%, effectively bridging the performance gap between the two models. Notably, this is achieved by invoking the LLM for only 1.07% of the total generated tokens, offering a 98.2% cost reduction compared to performance-matched random routers.