ChatPaper.aiChatPaper

이중 계층 라우팅 혼합 전문가를 활용한 300개 이상의 작업으로의 지속적 학습 확장

Scaling Continual Learning to 300+ Tasks with Bi-Level Routing Mixture-of-Experts

May 8, 2026
저자: Meng Lou, Yunxiang Fu, Yizhou Yu
cs.AI

초록

지속적 학습, 특히 사전 학습 모델(PTM)을 기반으로 한 클래스 증분 학습(CIL)은 최근 몇 년간 상당한 연구 관심을 받아왔다. 그러나 매우 긴 작업 시퀀스에서 안정성과 가소성을 유지하면서 판별적이고 포괄적인 특징 표현을 효과적으로 학습하는 방법은 여전히 해결되지 않은 문제로 남아 있다. 본 논문에서는 효율적인 이중 수준 라우팅 전문가 혼합(BR-MoE)을 갖춘 확장 가능한 지속적 학습자 CaRE를 제안한다. BR-MoE의 핵심 아이디어는 이중 수준 라우팅 메커니즘으로, 먼저 라우터 선택 단계에서 작업별 라우터를 동적으로 활성화한 후, 전문가 라우팅 단계에서 전문가를 동적으로 활성화하고 집계하여 각 중간 네트워크 계층에 판별적이고 포괄적인 표현을 주입하는 것이다. 한편, 수백 개의 작업으로 구성된 매우 긴 작업 시퀀스에서 CIL 성능 평가를 위한 도전적 데이터셋인 OmniBenchmark-1K를 소개한다. 광범위한 실험을 통해 CaRE는 일반적으로 사용되는 CIL 데이터셋과 고전적 CIL 설정(예: 5~20개 작업)을 포함한 다양한 데이터셋 및 작업 설정에서 선도적인 성능을 보임을 확인했다. 본 연구진이 아는 한, CaRE는 매우 긴 작업 시퀀스(100개에서 300개가 넘는 비중첩 작업)로 확장 가능한 최초의 지속적 학습자이며, 이러한 작업 시퀀스에서 모든 기준 모델을 큰 폭으로 능가한다. 본 연구가 극도로 긴 작업 시퀀스에서의 지속적 학습에 대한 추가 연구를 촉진하기를 기대한다. 코드와 데이터셋은 https://github.com/LMMMEng/CaRE에서 공개적으로 제공된다.
English
Continual learning, especially class-incremental learning (CIL), on the basis of a pre-trained model (PTM) has garnered substantial research interest in recent years. However, how to effectively learn both discriminative and comprehensive feature representations while maintaining stability and plasticity over very long task sequences remains an open problem. We propose CaRE, a scalable {C}ontinual Le{a}rner with efficient Bi-Level {R}outing Mixture-of-{E}xperts (BR-MoE). The core idea of BR-MoE is a bi-level routing mechanism: a router selection stage that dynamically activates relevant task-specific routers, followed by an expert routing phase that dynamically activates and aggregates experts, aiming to inject discriminative and comprehensive representations into every intermediate network layer. On the other hand, we introduce a challenging dataset, OmniBenchmark-1K, for CIL performance evaluation on very long task sequences with hundreds of tasks. Extensive experiments show that CaRE demonstrates leading performance across a variety of datasets and task settings, including commonly used CIL datasets with classical CIL settings (e.g., 5-20 tasks). To the best of our knowledge, CaRE is the first continual learner that scales to very long task sequences (ranging from 100 to over 300 non-overlapping tasks), while outperforming all baselines by a large margin on such task sequences. We hope that this work will inspire further research into continual learning over extremely long task sequences. Code and dataset are publicly released at https://github.com/LMMMEng/CaRE.
PDF71May 12, 2026