Collaboration de LLM au Niveau des Tokens via FusionRoute
Token-Level LLM Collaboration via FusionRoute
January 8, 2026
papers.authors: Nuoya Xiong, Yuhang Zhou, Hanqing Zeng, Zhaorun Chen, Furong Huang, Shuchao Bi, Lizhu Zhang, Zhuokai Zhao
cs.AI
papers.abstract
Les grands modèles de langage (LLM) démontrent des capacités remarquables dans divers domaines. Cependant, atteindre des performances solides dans ces domaines avec un seul modèle généraliste nécessite généralement une augmentation d'échelle vers des tailles rendant l'entraînement et le déploiement prohibitifs. D'un autre côté, bien que les modèles spécialisés de plus petite taille soient beaucoup plus efficaces, ils peinent à généraliser au-delà de leurs distributions d'entraînement. Pour résoudre ce dilemme, nous proposons FusionRoute, un cadre de collaboration multi-LLM robuste et efficace au niveau des tokens, dans lequel un routeur léger sélectionne simultanément (i) l'expert le plus approprié à chaque étape de décodage et (ii) fournit un logit complémentaire qui affine ou corrige la distribution du token suivant de l'expert sélectionné via une addition de logits. Contrairement aux méthodes de collaboration existantes au niveau des tokens qui reposent uniquement sur les sorties fixes des experts, nous fournissons une analyse théorique montrant que le routage purement basé sur les experts est fondamentalement limité : à moins que des hypothèses fortes de couverture globale ne soient vérifiées, il ne peut généralement pas réaliser la politique de décodage optimale. En augmentant la sélection d'experts avec un générateur complémentaire entraînable, FusionRoute élargit la classe de politiques effective et permet de retrouver les fonctions de valeur optimales sous des conditions modérées. Empiriquement, sur les familles Llama-3 et Gemma-2 et divers benchmarks couvrant le raisonnement mathématique, la génération de code et le suivi d'instructions, FusionRoute surpasse à la fois la collaboration au niveau des séquences et des tokens, la fusion de modèles et le fine-tuning direct, tout en restant compétitive avec les experts spécialisés sur leurs tâches respectives.
English
Large language models (LLMs) exhibit strengths across diverse domains. However, achieving strong performance across these domains with a single general-purpose model typically requires scaling to sizes that are prohibitively expensive to train and deploy. On the other hand, while smaller domain-specialized models are much more efficient, they struggle to generalize beyond their training distributions. To address this dilemma, we propose FusionRoute, a robust and effective token-level multi-LLM collaboration framework in which a lightweight router simultaneously (i) selects the most suitable expert at each decoding step and (ii) contributes a complementary logit that refines or corrects the selected expert's next-token distribution via logit addition. Unlike existing token-level collaboration methods that rely solely on fixed expert outputs, we provide a theoretical analysis showing that pure expert-only routing is fundamentally limited: unless strong global coverage assumptions hold, it cannot in general realize the optimal decoding policy. By augmenting expert selection with a trainable complementary generator, FusionRoute expands the effective policy class and enables recovery of optimal value functions under mild conditions. Empirically, across both Llama-3 and Gemma-2 families and diverse benchmarks spanning mathematical reasoning, code generation, and instruction following, FusionRoute outperforms both sequence- and token-level collaboration, model merging, and direct fine-tuning, while remaining competitive with domain experts on their respective tasks.