ChatPaper.aiChatPaper

Replanteando el equilibrio entre estabilidad y plasticidad en el aprendizaje continuo desde una perspectiva arquitectónica

Rethinking the Stability-Plasticity Trade-off in Continual Learning from an Architectural Perspective

June 4, 2025
Autores: Aojun Lu, Hangjie Yuan, Tao Feng, Yanan Sun
cs.AI

Resumen

La búsqueda del Aprendizaje Continuo (CL, por sus siglas en inglés) tiene como objetivo dotar a las redes neuronales de la capacidad de aprender y adaptarse de manera incremental. Central en este esfuerzo es abordar el dilema estabilidad-plasticidad, que implica encontrar un equilibrio entre dos objetivos conflictivos: preservar el conocimiento previamente aprendido y adquirir nuevo conocimiento. Si bien numerosos métodos de CL buscan lograr este equilibrio, a menudo pasan por alto el impacto de la arquitectura de la red en la estabilidad y la plasticidad, limitando el equilibrio al nivel de los parámetros. En este artículo, profundizamos en el conflicto entre estabilidad y plasticidad a nivel arquitectónico. Revelamos que, bajo una restricción de parámetros igual, las redes más profundas exhiben una mayor plasticidad, mientras que las redes más anchas se caracterizan por una estabilidad superior. Para abordar este dilema a nivel arquitectónico, presentamos un nuevo marco denominado Dual-Arch, que funciona como un componente complementario para CL. Este marco aprovecha las fortalezas complementarias de dos redes distintas e independientes: una dedicada a la plasticidad y la otra a la estabilidad. Cada red está diseñada con una arquitectura especializada y ligera, adaptada a su respectivo objetivo. Experimentos exhaustivos demuestran que Dual-Arch mejora el rendimiento de los métodos existentes de CL, siendo hasta un 87% más compacto en términos de parámetros.
English
The quest for Continual Learning (CL) seeks to empower neural networks with the ability to learn and adapt incrementally. Central to this pursuit is addressing the stability-plasticity dilemma, which involves striking a balance between two conflicting objectives: preserving previously learned knowledge and acquiring new knowledge. While numerous CL methods aim to achieve this trade-off, they often overlook the impact of network architecture on stability and plasticity, restricting the trade-off to the parameter level. In this paper, we delve into the conflict between stability and plasticity at the architectural level. We reveal that under an equal parameter constraint, deeper networks exhibit better plasticity, while wider networks are characterized by superior stability. To address this architectural-level dilemma, we introduce a novel framework denoted Dual-Arch, which serves as a plug-in component for CL. This framework leverages the complementary strengths of two distinct and independent networks: one dedicated to plasticity and the other to stability. Each network is designed with a specialized and lightweight architecture, tailored to its respective objective. Extensive experiments demonstrate that Dual-Arch enhances the performance of existing CL methods while being up to 87% more compact in terms of parameters.
PDF22June 5, 2025