ChatPaper.aiChatPaper

Neubewertung des Stabilität-Plastizität-Kompromisses im kontinuierlichen Lernen aus einer architektonischen Perspektive

Rethinking the Stability-Plasticity Trade-off in Continual Learning from an Architectural Perspective

June 4, 2025
Autoren: Aojun Lu, Hangjie Yuan, Tao Feng, Yanan Sun
cs.AI

Zusammenfassung

Das Streben nach Continual Learning (CL) zielt darauf ab, neuronale Netze mit der Fähigkeit auszustatten, inkrementell zu lernen und sich anzupassen. Kern dieser Bestrebung ist die Bewältigung des Stabilität-Plastizität-Dilemmas, bei dem es darum geht, ein Gleichgewicht zwischen zwei widersprüchlichen Zielen zu finden: die Bewahrung zuvor erworbenen Wissens und die Aufnahme neuen Wissens. Während zahlreiche CL-Methoden diesen Kompromiss anstreben, übersehen sie oft den Einfluss der Netzwerkarchitektur auf Stabilität und Plastizität, wodurch der Kompromiss auf die Parameterebene beschränkt bleibt. In diesem Artikel untersuchen wir den Konflikt zwischen Stabilität und Plastizität auf der Architekturebene. Wir zeigen, dass unter gleichen Parameterbeschränkungen tiefere Netze eine bessere Plastizität aufweisen, während breitere Netze durch eine überlegene Stabilität gekennzeichnet sind. Um dieses Architekturebenen-Dilemma zu lösen, führen wir ein neuartiges Framework namens Dual-Arch ein, das als Plug-in-Komponente für CL dient. Dieses Framework nutzt die komplementären Stärken von zwei unterschiedlichen und unabhängigen Netzen: eines, das auf Plastizität ausgerichtet ist, und ein anderes, das auf Stabilität abzielt. Jedes Netz ist mit einer spezialisierten und leichtgewichtigen Architektur ausgestattet, die auf das jeweilige Ziel zugeschnitten ist. Umfangreiche Experimente zeigen, dass Dual-Arch die Leistung bestehender CL-Methoden verbessert und dabei bis zu 87 % kompakter in Bezug auf die Parameter ist.
English
The quest for Continual Learning (CL) seeks to empower neural networks with the ability to learn and adapt incrementally. Central to this pursuit is addressing the stability-plasticity dilemma, which involves striking a balance between two conflicting objectives: preserving previously learned knowledge and acquiring new knowledge. While numerous CL methods aim to achieve this trade-off, they often overlook the impact of network architecture on stability and plasticity, restricting the trade-off to the parameter level. In this paper, we delve into the conflict between stability and plasticity at the architectural level. We reveal that under an equal parameter constraint, deeper networks exhibit better plasticity, while wider networks are characterized by superior stability. To address this architectural-level dilemma, we introduce a novel framework denoted Dual-Arch, which serves as a plug-in component for CL. This framework leverages the complementary strengths of two distinct and independent networks: one dedicated to plasticity and the other to stability. Each network is designed with a specialized and lightweight architecture, tailored to its respective objective. Extensive experiments demonstrate that Dual-Arch enhances the performance of existing CL methods while being up to 87% more compact in terms of parameters.
PDF22June 5, 2025