Het heroverwegen van de stabiliteit-plasticiteit afweging in continu leren vanuit een architecturaal perspectief
Rethinking the Stability-Plasticity Trade-off in Continual Learning from an Architectural Perspective
June 4, 2025
Auteurs: Aojun Lu, Hangjie Yuan, Tao Feng, Yanan Sun
cs.AI
Samenvatting
De zoektocht naar Continual Learning (CL) streeft ernaar neurale netwerken de mogelijkheid te geven om incrementeel te leren en zich aan te passen. Centraal in deze zoektocht staat het aanpakken van het stabiliteit-plasticiteit dilemma, waarbij een balans moet worden gevonden tussen twee tegenstrijdige doelstellingen: het behouden van eerder verworven kennis en het verwerven van nieuwe kennis. Hoewel talrijke CL-methoden deze afweging proberen te bereiken, negeren ze vaak de impact van netwerkarchitectuur op stabiliteit en plasticiteit, waardoor de afweging beperkt blijft tot het parameterniveau. In dit artikel verdiepen we ons in het conflict tussen stabiliteit en plasticiteit op architectuurniveau. We tonen aan dat onder een gelijke parameterbeperking diepere netwerken betere plasticiteit vertonen, terwijl bredere netwerken worden gekenmerkt door superieure stabiliteit. Om dit architectuurniveau dilemma aan te pakken, introduceren we een nieuw framework genaamd Dual-Arch, dat fungeert als een plug-in component voor CL. Dit framework benut de complementaire sterktes van twee verschillende en onafhankelijke netwerken: één gericht op plasticiteit en de ander op stabiliteit. Elk netwerk is ontworpen met een gespecialiseerde en lichtgewicht architectuur, afgestemd op het respectieve doel. Uitgebreide experimenten tonen aan dat Dual-Arch de prestaties van bestaande CL-methoden verbetert, terwijl het tot 87% compacter is wat betreft het aantal parameters.
English
The quest for Continual Learning (CL) seeks to empower neural networks with
the ability to learn and adapt incrementally. Central to this pursuit is
addressing the stability-plasticity dilemma, which involves striking a balance
between two conflicting objectives: preserving previously learned knowledge and
acquiring new knowledge. While numerous CL methods aim to achieve this
trade-off, they often overlook the impact of network architecture on stability
and plasticity, restricting the trade-off to the parameter level. In this
paper, we delve into the conflict between stability and plasticity at the
architectural level. We reveal that under an equal parameter constraint, deeper
networks exhibit better plasticity, while wider networks are characterized by
superior stability. To address this architectural-level dilemma, we introduce a
novel framework denoted Dual-Arch, which serves as a plug-in component for CL.
This framework leverages the complementary strengths of two distinct and
independent networks: one dedicated to plasticity and the other to stability.
Each network is designed with a specialized and lightweight architecture,
tailored to its respective objective. Extensive experiments demonstrate that
Dual-Arch enhances the performance of existing CL methods while being up to 87%
more compact in terms of parameters.