Repensando o Dilema Estabilidade-Plasticidade na Aprendizagem Contínua sob uma Perspectiva Arquitetural
Rethinking the Stability-Plasticity Trade-off in Continual Learning from an Architectural Perspective
June 4, 2025
Autores: Aojun Lu, Hangjie Yuan, Tao Feng, Yanan Sun
cs.AI
Resumo
A busca pela Aprendizagem Contínua (CL, do inglês Continual Learning) visa capacitar redes neurais com a habilidade de aprender e se adaptar de forma incremental. Central para essa busca é o enfrentamento do dilema estabilidade-plasticidade, que envolve encontrar um equilíbrio entre dois objetivos conflitantes: preservar o conhecimento previamente aprendido e adquirir novos conhecimentos. Embora diversos métodos de CL busquem alcançar esse equilíbrio, eles frequentemente negligenciam o impacto da arquitetura da rede na estabilidade e na plasticidade, restringindo o trade-off ao nível dos parâmetros. Neste artigo, exploramos o conflito entre estabilidade e plasticidade no nível arquitetural. Revelamos que, sob uma restrição igual de parâmetros, redes mais profundas exibem melhor plasticidade, enquanto redes mais largas são caracterizadas por uma estabilidade superior. Para abordar esse dilema no nível arquitetural, introduzimos um novo framework denominado Dual-Arch, que funciona como um componente plug-in para CL. Esse framework aproveita os pontos fortes complementares de duas redes distintas e independentes: uma dedicada à plasticidade e outra à estabilidade. Cada rede é projetada com uma arquitetura especializada e leve, adaptada ao seu respectivo objetivo. Experimentos extensivos demonstram que o Dual-Arch melhora o desempenho dos métodos existentes de CL, ao mesmo tempo em que é até 87% mais compacto em termos de parâmetros.
English
The quest for Continual Learning (CL) seeks to empower neural networks with
the ability to learn and adapt incrementally. Central to this pursuit is
addressing the stability-plasticity dilemma, which involves striking a balance
between two conflicting objectives: preserving previously learned knowledge and
acquiring new knowledge. While numerous CL methods aim to achieve this
trade-off, they often overlook the impact of network architecture on stability
and plasticity, restricting the trade-off to the parameter level. In this
paper, we delve into the conflict between stability and plasticity at the
architectural level. We reveal that under an equal parameter constraint, deeper
networks exhibit better plasticity, while wider networks are characterized by
superior stability. To address this architectural-level dilemma, we introduce a
novel framework denoted Dual-Arch, which serves as a plug-in component for CL.
This framework leverages the complementary strengths of two distinct and
independent networks: one dedicated to plasticity and the other to stability.
Each network is designed with a specialized and lightweight architecture,
tailored to its respective objective. Extensive experiments demonstrate that
Dual-Arch enhances the performance of existing CL methods while being up to 87%
more compact in terms of parameters.