ChatPaper.aiChatPaper

Repenser le compromis stabilité-plasticité dans l'apprentissage continu sous un angle architectural

Rethinking the Stability-Plasticity Trade-off in Continual Learning from an Architectural Perspective

June 4, 2025
Auteurs: Aojun Lu, Hangjie Yuan, Tao Feng, Yanan Sun
cs.AI

Résumé

La quête de l'apprentissage continu (Continual Learning, CL) vise à doter les réseaux de neurones de la capacité d'apprendre et de s'adapter de manière incrémentale. Au cœur de cette démarche se trouve la résolution du dilemme stabilité-plasticité, qui consiste à trouver un équilibre entre deux objectifs contradictoires : préserver les connaissances acquises précédemment et acquérir de nouvelles connaissances. Bien que de nombreuses méthodes de CL cherchent à atteindre ce compromis, elles négligent souvent l'impact de l'architecture du réseau sur la stabilité et la plasticité, limitant ce compromis au niveau des paramètres. Dans cet article, nous explorons le conflit entre stabilité et plasticité au niveau architectural. Nous révélons que, sous une contrainte de paramètres égale, les réseaux plus profonds présentent une meilleure plasticité, tandis que les réseaux plus larges se caractérisent par une stabilité supérieure. Pour résoudre ce dilemme au niveau architectural, nous introduisons un nouveau cadre appelé Dual-Arch, qui sert de composant plug-in pour le CL. Ce cadre exploite les forces complémentaires de deux réseaux distincts et indépendants : l'un dédié à la plasticité et l'autre à la stabilité. Chaque réseau est conçu avec une architecture spécialisée et légère, adaptée à son objectif respectif. Des expériences approfondies démontrent que Dual-Arch améliore les performances des méthodes de CL existantes tout en étant jusqu'à 87 % plus compact en termes de paramètres.
English
The quest for Continual Learning (CL) seeks to empower neural networks with the ability to learn and adapt incrementally. Central to this pursuit is addressing the stability-plasticity dilemma, which involves striking a balance between two conflicting objectives: preserving previously learned knowledge and acquiring new knowledge. While numerous CL methods aim to achieve this trade-off, they often overlook the impact of network architecture on stability and plasticity, restricting the trade-off to the parameter level. In this paper, we delve into the conflict between stability and plasticity at the architectural level. We reveal that under an equal parameter constraint, deeper networks exhibit better plasticity, while wider networks are characterized by superior stability. To address this architectural-level dilemma, we introduce a novel framework denoted Dual-Arch, which serves as a plug-in component for CL. This framework leverages the complementary strengths of two distinct and independent networks: one dedicated to plasticity and the other to stability. Each network is designed with a specialized and lightweight architecture, tailored to its respective objective. Extensive experiments demonstrate that Dual-Arch enhances the performance of existing CL methods while being up to 87% more compact in terms of parameters.
PDF22June 5, 2025