ChatPaper.aiChatPaper

퓨전루트를 통한 토큰 수준 LLM 협업

Token-Level LLM Collaboration via FusionRoute

January 8, 2026
저자: Nuoya Xiong, Yuhang Zhou, Hanqing Zeng, Zhaorun Chen, Furong Huang, Shuchao Bi, Lizhu Zhang, Zhuokai Zhao
cs.AI

초록

대규모 언어 모델(LLM)은 다양한 영역에서 강점을 보입니다. 그러나 단일 범용 모델로 이러한 영역 전반에 걸쳐 강력한 성능을 달성하려면 일반적으로 학습 및 배포 비용이 매우 높은 규모로 확장해야 합니다. 반면, 영역별로 특화된 소규모 모델은 훨씬 효율적이지만, 학습 데이터 분포를 벗어난 일반화에는 어려움을 겪습니다. 이러한 딜레마를 해결하기 위해 본 논문에서는 강력하고 효과적인 토큰 수준 다중 LLM 협업 프레임워크인 FusionRoute를 제안합니다. FusionRoute는 경량 라우터가 각 디코딩 단계에서 (i) 가장 적합한 전문가를 동시에 선택하고 (ii) 로짓 덧셈을 통해 선택된 전문가의 다음 토큰 분포를 개선하거나 수정하는 상보적 로짓을 제공하는 방식입니다. 고정된 전문가 출력에만 의존하는 기존 토큰 수준 협업 방법과 달리, 본 연구는 순수 전문가 라우팅이 근본적으로 한계가 있음을 이론적으로 분석합니다: 강력한 전역 커버리지 가정이 성립하지 않는 한, 일반적으로 최적의 디코딩 정책을 구현할 수 없습니다. FusionRoute는 전문가 선택에 학습 가능한 상보적 생성기를 추가하여 효과적인 정책 클래스를 확장하고 약한 조건 하에서 최적 가치 함수의 복원을 가능하게 합니다. 실험적으로, Llama-3 및 Gemma-2 모델 군과 수학적 추론, 코드 생성, 지시 따르기 등 다양한 벤치마크에서 FusionRoute는 시퀀스 및 토큰 수준 협업, 모델 병합, 직접 미세 조정보다 우수한 성능을 보였으며, 해당 작업에 특화된 도메인 전문가 모델과도 경쟁력을 유지했습니다.
English
Large language models (LLMs) exhibit strengths across diverse domains. However, achieving strong performance across these domains with a single general-purpose model typically requires scaling to sizes that are prohibitively expensive to train and deploy. On the other hand, while smaller domain-specialized models are much more efficient, they struggle to generalize beyond their training distributions. To address this dilemma, we propose FusionRoute, a robust and effective token-level multi-LLM collaboration framework in which a lightweight router simultaneously (i) selects the most suitable expert at each decoding step and (ii) contributes a complementary logit that refines or corrects the selected expert's next-token distribution via logit addition. Unlike existing token-level collaboration methods that rely solely on fixed expert outputs, we provide a theoretical analysis showing that pure expert-only routing is fundamentally limited: unless strong global coverage assumptions hold, it cannot in general realize the optimal decoding policy. By augmenting expert selection with a trainable complementary generator, FusionRoute expands the effective policy class and enables recovery of optimal value functions under mild conditions. Empirically, across both Llama-3 and Gemma-2 families and diverse benchmarks spanning mathematical reasoning, code generation, and instruction following, FusionRoute outperforms both sequence- and token-level collaboration, model merging, and direct fine-tuning, while remaining competitive with domain experts on their respective tasks.
PDF220January 10, 2026