ChatPaper.aiChatPaper

Token-Level-LLM-Kollaboration via FusionRoute

Token-Level LLM Collaboration via FusionRoute

January 8, 2026
papers.authors: Nuoya Xiong, Yuhang Zhou, Hanqing Zeng, Zhaorun Chen, Furong Huang, Shuchao Bi, Lizhu Zhang, Zhuokai Zhao
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) zeigen Stärken in verschiedenen Domänen. Allerdings erfordert die Erzielung einer hohen Leistungsfähigkeit über diese Domänen hinweg mit einem einzigen Allzweckmodell typischerweise eine Skalierung auf Größen, die in Bezug auf Trainings- und Bereitstellungskosten prohibitiv hoch sind. Andererseits, obwohl kleinere, domänenspezialisierte Modelle deutlich effizienter sind, haben sie Schwierigkeiten, über ihre Trainingsverteilungen hinaus zu generalisieren. Um dieses Dilemma zu adressieren, schlagen wir FusionRoute vor, ein robustes und effektives Token-level Multi-LLM-Kollaborationsframework, in dem ein leichtgewichtiger Router gleichzeitig (i) den jeweils am besten geeigneten Experten bei jedem Dekodierungsschritt auswählt und (ii) einen komplementären Logit-Wert beisteuert, der die Next-Token-Verteilung des gewählten Experten durch Logit-Addition verfeinert oder korrigiert. Im Gegensatz zu bestehenden Token-level-Kollaborationsmethoden, die sich ausschließlich auf feste Expertenausgaben verlassen, liefern wir eine theoretische Analyse, die zeigt, dass reines Experten-only-Routing grundlegend limitiert ist: Sofern keine starken Annahmen zur globalen Abdeckung gelten, kann es im Allgemeinen die optimale Dekodierungsstrategie nicht realisieren. Durch die Erweiterung der Expertenauswahl um einen trainierbaren komplementären Generator erweitert FusionRoute die effektive Strategieklasse und ermöglicht die Wiederherstellung optimaler Wertfunktionen unter milden Bedingungen. Empirisch zeigt FusionRoute über sowohl die Llama-3- als auch die Gemma-2-Modellfamilien und diverse Benchmarks hinweg, die mathematisches Reasoning, Code-Generierung und Instruktionsbefolgung abdecken, dass es sowohl Sequenz- als auch Token-level-Kollaboration, Modellzusammenführung und direktes Fine-Tuning übertrifft, während es mit Domänenexperten auf deren jeweiligen Aufgaben wettbewerbsfähig bleibt.
English
Large language models (LLMs) exhibit strengths across diverse domains. However, achieving strong performance across these domains with a single general-purpose model typically requires scaling to sizes that are prohibitively expensive to train and deploy. On the other hand, while smaller domain-specialized models are much more efficient, they struggle to generalize beyond their training distributions. To address this dilemma, we propose FusionRoute, a robust and effective token-level multi-LLM collaboration framework in which a lightweight router simultaneously (i) selects the most suitable expert at each decoding step and (ii) contributes a complementary logit that refines or corrects the selected expert's next-token distribution via logit addition. Unlike existing token-level collaboration methods that rely solely on fixed expert outputs, we provide a theoretical analysis showing that pure expert-only routing is fundamentally limited: unless strong global coverage assumptions hold, it cannot in general realize the optimal decoding policy. By augmenting expert selection with a trainable complementary generator, FusionRoute expands the effective policy class and enables recovery of optimal value functions under mild conditions. Empirically, across both Llama-3 and Gemma-2 families and diverse benchmarks spanning mathematical reasoning, code generation, and instruction following, FusionRoute outperforms both sequence- and token-level collaboration, model merging, and direct fine-tuning, while remaining competitive with domain experts on their respective tasks.
PDF220January 10, 2026