ChatPaper.aiChatPaper

Colaboración entre LLM a Nivel de Token mediante FusionRoute

Token-Level LLM Collaboration via FusionRoute

January 8, 2026
Autores: Nuoya Xiong, Yuhang Zhou, Hanqing Zeng, Zhaorun Chen, Furong Huang, Shuchao Bi, Lizhu Zhang, Zhuokai Zhao
cs.AI

Resumen

Los grandes modelos de lenguaje (LLMs) demuestran fortalezas en diversos dominios. Sin embargo, lograr un rendimiento sólido en todos estos dominios con un único modelo de propósito general normalmente requiere escalar a tamaños que son prohibitivamente costosos de entrenar e implementar. Por otro lado, aunque los modelos más pequeños especializados en dominios son mucho más eficientes, tienen dificultades para generalizar más allá de sus distribuciones de entrenamiento. Para abordar este dilema, proponemos FusionRoute, un marco de colaboración multi-LLM robusto y efectivo a nivel de token, en el cual un enrutador ligero selecciona simultáneamente (i) al experto más adecuado en cada paso de decodificación y (ii) contribuye con un logit complementario que refina o corrige la distribución del siguiente token del experto seleccionado mediante la suma de logits. A diferencia de los métodos de colaboración a nivel de token existentes que se basan únicamente en salidas fijas de expertos, proporcionamos un análisis teórico que muestra que el enrutamiento puramente basado en expertos es fundamentalmente limitado: a menos que se cumplan fuertes suposiciones de cobertura global, en general no puede realizar la política de decodificación óptima. Al aumentar la selección de expertos con un generador complementario entrenable, FusionRoute expande la clase de políticas efectiva y permite la recuperación de funciones de valor óptimas bajo condiciones suaves. Empíricamente, en las familias Llama-3 y Gemma-2 y en diversos benchmarks que abarcan razonamiento matemático, generación de código y seguimiento de instrucciones, FusionRoute supera tanto a la colaboración a nivel de secuencia como a nivel de token, a la fusión de modelos y al ajuste fino directo, manteniéndose competitivo con los expertos de dominio en sus respectivas tareas.
English
Large language models (LLMs) exhibit strengths across diverse domains. However, achieving strong performance across these domains with a single general-purpose model typically requires scaling to sizes that are prohibitively expensive to train and deploy. On the other hand, while smaller domain-specialized models are much more efficient, they struggle to generalize beyond their training distributions. To address this dilemma, we propose FusionRoute, a robust and effective token-level multi-LLM collaboration framework in which a lightweight router simultaneously (i) selects the most suitable expert at each decoding step and (ii) contributes a complementary logit that refines or corrects the selected expert's next-token distribution via logit addition. Unlike existing token-level collaboration methods that rely solely on fixed expert outputs, we provide a theoretical analysis showing that pure expert-only routing is fundamentally limited: unless strong global coverage assumptions hold, it cannot in general realize the optimal decoding policy. By augmenting expert selection with a trainable complementary generator, FusionRoute expands the effective policy class and enables recovery of optimal value functions under mild conditions. Empirically, across both Llama-3 and Gemma-2 families and diverse benchmarks spanning mathematical reasoning, code generation, and instruction following, FusionRoute outperforms both sequence- and token-level collaboration, model merging, and direct fine-tuning, while remaining competitive with domain experts on their respective tasks.
PDF220January 10, 2026