ChatPaper.aiChatPaper

Ripensare il compromesso stabilità-plasticità nell'apprendimento continuo da una prospettiva architetturale

Rethinking the Stability-Plasticity Trade-off in Continual Learning from an Architectural Perspective

June 4, 2025
Autori: Aojun Lu, Hangjie Yuan, Tao Feng, Yanan Sun
cs.AI

Abstract

La ricerca sull'apprendimento continuo (Continual Learning, CL) mira a dotare le reti neurali della capacità di apprendere e adattarsi in modo incrementale. Al centro di questa ricerca vi è la necessità di affrontare il dilemma stabilità-plasticità, che consiste nel trovare un equilibrio tra due obiettivi contrastanti: preservare le conoscenze precedentemente apprese e acquisire nuove conoscenze. Sebbene numerosi metodi di CL cerchino di raggiungere questo compromesso, spesso trascurano l'impatto dell'architettura della rete sulla stabilità e sulla plasticità, limitando il compromesso al livello dei parametri. In questo articolo, approfondiamo il conflitto tra stabilità e plasticità a livello architetturale. Dimostriamo che, sotto un vincolo di parametri uguali, le reti più profonde mostrano una migliore plasticità, mentre le reti più ampie sono caratterizzate da una superiore stabilità. Per affrontare questo dilemma a livello architetturale, introduciamo un nuovo framework denominato Dual-Arch, che funge da componente plug-in per il CL. Questo framework sfrutta i punti di forza complementari di due reti distinte e indipendenti: una dedicata alla plasticità e l'altra alla stabilità. Ogni rete è progettata con un'architettura specializzata e leggera, ottimizzata per il rispettivo obiettivo. Esperimenti estensivi dimostrano che Dual-Arch migliora le prestazioni dei metodi di CL esistenti, riducendo fino all'87% il numero di parametri necessari.
English
The quest for Continual Learning (CL) seeks to empower neural networks with the ability to learn and adapt incrementally. Central to this pursuit is addressing the stability-plasticity dilemma, which involves striking a balance between two conflicting objectives: preserving previously learned knowledge and acquiring new knowledge. While numerous CL methods aim to achieve this trade-off, they often overlook the impact of network architecture on stability and plasticity, restricting the trade-off to the parameter level. In this paper, we delve into the conflict between stability and plasticity at the architectural level. We reveal that under an equal parameter constraint, deeper networks exhibit better plasticity, while wider networks are characterized by superior stability. To address this architectural-level dilemma, we introduce a novel framework denoted Dual-Arch, which serves as a plug-in component for CL. This framework leverages the complementary strengths of two distinct and independent networks: one dedicated to plasticity and the other to stability. Each network is designed with a specialized and lightweight architecture, tailored to its respective objective. Extensive experiments demonstrate that Dual-Arch enhances the performance of existing CL methods while being up to 87% more compact in terms of parameters.
PDF22June 5, 2025