ChatPaper.aiChatPaper

トークンレベルLLM協調によるFusionRoute

Token-Level LLM Collaboration via FusionRoute

January 8, 2026
著者: Nuoya Xiong, Yuhang Zhou, Hanqing Zeng, Zhaorun Chen, Furong Huang, Shuchao Bi, Lizhu Zhang, Zhuokai Zhao
cs.AI

要旨

大規模言語モデル(LLM)は多様な領域で強みを示す。しかし、単一の汎用モデルでこれらの領域全体にわたって強力な性能を達成するには、通常、学習と展開のコストが過剰に高くなる規模への拡大が必要となる。一方、小規模なドメイン特化モデルははるかに効率的であるが、学習分布を超えた汎化が困難である。このジレンマを解決するため、我々はFusionRouteを提案する。これは軽量なルーターが各デコードステップで(i)最も適した専門家を選択すると同時に、(ii)ロジット加算によって選択された専門家の次トークン分布を洗練または修正する相補的なロジットを提供する、頑健で効果的なトークンレベル複数LLM協調フレームワークである。固定された専門家出力のみに依存する既存のトークンレベル協調手法とは異なり、我々は純粋な専門家限定ルーティングが根本的に限界があることを理論的に分析する:強いグローバルカバレッジの仮定が成立しない限り、一般的に最適なデコード方策を実現できない。専門家選択に学習可能な相補的生成器を追加することで、FusionRouteは有効な方策クラスを拡大し、穏やかな条件下で最適価値関数の回復を可能にする。実験では、Llama-3とGemma-2ファミリー、数学的推論、コード生成、指示追従を含む多様なベンチマークにおいて、FusionRouteは系列レベルおよびトークンレベルの協調、モデルマージ、直接ファインチューニングを上回り、各タスクにおけるドメイン専門家と競合する性能を示した。
English
Large language models (LLMs) exhibit strengths across diverse domains. However, achieving strong performance across these domains with a single general-purpose model typically requires scaling to sizes that are prohibitively expensive to train and deploy. On the other hand, while smaller domain-specialized models are much more efficient, they struggle to generalize beyond their training distributions. To address this dilemma, we propose FusionRoute, a robust and effective token-level multi-LLM collaboration framework in which a lightweight router simultaneously (i) selects the most suitable expert at each decoding step and (ii) contributes a complementary logit that refines or corrects the selected expert's next-token distribution via logit addition. Unlike existing token-level collaboration methods that rely solely on fixed expert outputs, we provide a theoretical analysis showing that pure expert-only routing is fundamentally limited: unless strong global coverage assumptions hold, it cannot in general realize the optimal decoding policy. By augmenting expert selection with a trainable complementary generator, FusionRoute expands the effective policy class and enables recovery of optimal value functions under mild conditions. Empirically, across both Llama-3 and Gemma-2 families and diverse benchmarks spanning mathematical reasoning, code generation, and instruction following, FusionRoute outperforms both sequence- and token-level collaboration, model merging, and direct fine-tuning, while remaining competitive with domain experts on their respective tasks.
PDF220January 10, 2026