Escalando el Aprendizaje Continuo a más de 300 Tareas con una Mezcla de Expertos de Enrutamiento Bi-Nivel

Resumen

El aprendizaje continuo, especialmente el aprendizaje incremental por clases (CIL, por sus siglas en inglés), basado en modelos preentrenados (PTM), ha generado un interés investigativo considerable en los últimos años. Sin embargo, cómo aprender de manera efectiva representaciones de características tanto discriminativas como integrales, manteniendo al mismo tiempo estabilidad y plasticidad en secuencias de tareas extremadamente largas, sigue siendo un problema sin resolver. Presentamos CaRE, un sistema escalable de aprendizaje continuo con un mecanismo eficiente de Mezcla de Expertos con Enrutamiento Bi-Nivel (BR-MoE). La idea central de BR-MoE es un mecanismo de enrutamiento bi-nivel: una etapa de selección de enrutadores que activa dinámicamente enrutadores específicos por tarea, seguida de una fase de enrutamiento de expertos que activa y agrega expertos de manera dinámica, con el objetivo de inyectar representaciones discriminativas e integrales en cada capa intermedia de la red. Por otro lado, introducimos un conjunto de datos desafiante, OmniBenchmark-1K, para evaluar el rendimiento de CIL en secuencias de tareas muy largas con cientos de tareas. Experimentos exhaustivos demuestran que CaRE exhibe un rendimiento líder en diversos conjuntos de datos y configuraciones de tareas, incluyendo conjuntos de datos CIL comúnmente utilizados con configuraciones clásicas (por ejemplo, 5-20 tareas). Hasta donde sabemos, CaRE es el primer sistema de aprendizaje continuo que escala a secuencias de tareas extremadamente largas (desde 100 hasta más de 300 tareas no superpuestas), superando ampliamente a todos los métodos de referencia en dichas secuencias. Esperamos que este trabajo inspire futuras investigaciones en aprendizaje continuo para secuencias de tareas extremadamente largas. El código y el conjunto de datos están disponibles públicamente en https://github.com/LMMMEng/CaRE.

English

Continual learning, especially class-incremental learning (CIL), on the basis of a pre-trained model (PTM) has garnered substantial research interest in recent years. However, how to effectively learn both discriminative and comprehensive feature representations while maintaining stability and plasticity over very long task sequences remains an open problem. We propose CaRE, a scalable {C}ontinual Le{a}rner with efficient Bi-Level {R}outing Mixture-of-{E}xperts (BR-MoE). The core idea of BR-MoE is a bi-level routing mechanism: a router selection stage that dynamically activates relevant task-specific routers, followed by an expert routing phase that dynamically activates and aggregates experts, aiming to inject discriminative and comprehensive representations into every intermediate network layer. On the other hand, we introduce a challenging dataset, OmniBenchmark-1K, for CIL performance evaluation on very long task sequences with hundreds of tasks. Extensive experiments show that CaRE demonstrates leading performance across a variety of datasets and task settings, including commonly used CIL datasets with classical CIL settings (e.g., 5-20 tasks). To the best of our knowledge, CaRE is the first continual learner that scales to very long task sequences (ranging from 100 to over 300 non-overlapping tasks), while outperforming all baselines by a large margin on such task sequences. We hope that this work will inspire further research into continual learning over extremely long task sequences. Code and dataset are publicly released at https://github.com/LMMMEng/CaRE.

Escalando el Aprendizaje Continuo a más de 300 Tareas con una Mezcla de Expertos de Enrutamiento Bi-Nivel

Scaling Continual Learning to 300+ Tasks with Bi-Level Routing Mixture-of-Experts

Resumen

Support