Token-Level LLM-Samenwerking via FusieRoute

Samenvatting

Grote taalmodellen (LLM's) vertonen sterke prestaties in uiteenlopende domeinen. Het bereiken van robuuste prestaties over al deze domeinen met één algemeen model vereist echter doorgaans een schaalgrootte die onbetaalbaar duur is om te trainen en in te zetten. Aan de andere kant zijn kleinere, domeinspecifieke modellen weliswaar veel efficiënter, maar zij hebben moeite om te generaliseren buiten hun trainingsdistributie. Om dit dilemma op te lossen, stellen wij FusionRoute voor: een robuust en effectief kader voor multi-LLM-samenwerking op tokenniveau, waarin een lichtgewicht router gelijktijdig (i) de meest geschikte expert selecteert bij elke decodestap en (ii) een complementaire logit bijdraagt die de volgende-tokenverdeling van de geselecteerde expert verfijnt of corrigeert via logit-optelling. In tegenstelling tot bestaande samenwerkingsmethoden op tokenniveau die uitsluitend vertrouwen op vaste expertoutputs, tonen wij via een theoretische analyse aan dat zuivere expert-routing fundamenteel beperkt is: tenzij sterke globale dekkingaannames gelden, kan het over het algemeen niet het optimale decodeerbeleid realiseren. Door expertselectie aan te vullen met een trainbare complementaire generator, breidt FusionRoute de effectieve beleidsklasse uit en maakt het herstel van optimale waardefuncties mogelijk onder milde voorwaarden. Empirisch gezien presteert FusionRoute, getest op zowel de Llama-3- als Gemma-2-families en diverse benchmarks voor wiskundig redeneren, codegeneratie en instructie-opvolging, beter dan samenwerking op sequentie- en tokenniveau, modelmerging en direct fine-tuning, terwijl het competitief blijft met domeinexperts in hun respectievelijke taken.

English

Large language models (LLMs) exhibit strengths across diverse domains. However, achieving strong performance across these domains with a single general-purpose model typically requires scaling to sizes that are prohibitively expensive to train and deploy. On the other hand, while smaller domain-specialized models are much more efficient, they struggle to generalize beyond their training distributions. To address this dilemma, we propose FusionRoute, a robust and effective token-level multi-LLM collaboration framework in which a lightweight router simultaneously (i) selects the most suitable expert at each decoding step and (ii) contributes a complementary logit that refines or corrects the selected expert's next-token distribution via logit addition. Unlike existing token-level collaboration methods that rely solely on fixed expert outputs, we provide a theoretical analysis showing that pure expert-only routing is fundamentally limited: unless strong global coverage assumptions hold, it cannot in general realize the optimal decoding policy. By augmenting expert selection with a trainable complementary generator, FusionRoute expands the effective policy class and enables recovery of optimal value functions under mild conditions. Empirically, across both Llama-3 and Gemma-2 families and diverse benchmarks spanning mathematical reasoning, code generation, and instruction following, FusionRoute outperforms both sequence- and token-level collaboration, model merging, and direct fine-tuning, while remaining competitive with domain experts on their respective tasks.

Token-Level LLM-Samenwerking via FusieRoute

Token-Level LLM Collaboration via FusionRoute

Samenvatting

Support