アーキテクチャの観点から見た継続学習における安定性と可塑性のトレードオフの再考
Rethinking the Stability-Plasticity Trade-off in Continual Learning from an Architectural Perspective
June 4, 2025
著者: Aojun Lu, Hangjie Yuan, Tao Feng, Yanan Sun
cs.AI
要旨
継続学習(Continual Learning, CL)の探求は、ニューラルネットワークに段階的に学習し適応する能力を与えることを目指している。この探求の中心となるのは、安定性と可塑性のジレンマに対処することであり、これは二つの相反する目標のバランスを取ることを含む:すでに学習した知識を保持することと、新しい知識を獲得することである。多くのCL手法がこのトレードオフを達成しようとしているが、それらはしばしばネットワークアーキテクチャが安定性と可塑性に与える影響を見落としており、トレードオフをパラメータレベルに限定している。本論文では、アーキテクチャレベルでの安定性と可塑性の衝突について掘り下げる。我々は、同等のパラメータ制約の下で、より深いネットワークは可塑性が高く、より広いネットワークは優れた安定性を示すことを明らかにする。このアーキテクチャレベルのジレンマに対処するため、我々はDual-Archと称する新しいフレームワークを導入する。このフレームワークは、CLのプラグインコンポーネントとして機能し、二つの異なる独立したネットワークの補完的な強みを活用する:一つは可塑性に特化し、もう一つは安定性に特化している。各ネットワークは、それぞれの目的に合わせて特別に設計された軽量なアーキテクチャを持つ。大規模な実験により、Dual-Archが既存のCL手法の性能を向上させながら、パラメータ数において最大87%のコンパクトさを実現することが示された。
English
The quest for Continual Learning (CL) seeks to empower neural networks with
the ability to learn and adapt incrementally. Central to this pursuit is
addressing the stability-plasticity dilemma, which involves striking a balance
between two conflicting objectives: preserving previously learned knowledge and
acquiring new knowledge. While numerous CL methods aim to achieve this
trade-off, they often overlook the impact of network architecture on stability
and plasticity, restricting the trade-off to the parameter level. In this
paper, we delve into the conflict between stability and plasticity at the
architectural level. We reveal that under an equal parameter constraint, deeper
networks exhibit better plasticity, while wider networks are characterized by
superior stability. To address this architectural-level dilemma, we introduce a
novel framework denoted Dual-Arch, which serves as a plug-in component for CL.
This framework leverages the complementary strengths of two distinct and
independent networks: one dedicated to plasticity and the other to stability.
Each network is designed with a specialized and lightweight architecture,
tailored to its respective objective. Extensive experiments demonstrate that
Dual-Arch enhances the performance of existing CL methods while being up to 87%
more compact in terms of parameters.