안정성-가소성 트레이드오프 재고: 지속 학습에서의 아키텍처 관점
Rethinking the Stability-Plasticity Trade-off in Continual Learning from an Architectural Perspective
June 4, 2025
저자: Aojun Lu, Hangjie Yuan, Tao Feng, Yanan Sun
cs.AI
초록
지속 학습(Continual Learning, CL)의 탐구는 신경망이 점진적으로 학습하고 적응할 수 있는 능력을 부여하는 것을 목표로 합니다. 이 탐구의 핵심은 안정성과 가소성의 딜레마를 해결하는 데 있으며, 이는 두 가지 상충되는 목표, 즉 이전에 학습한 지식을 보존하는 것과 새로운 지식을 습득하는 것 사이의 균형을 맞추는 것을 포함합니다. 수많은 CL 방법들이 이러한 균형을 달성하려고 시도하지만, 이들은 종종 네트워크 아키텍처가 안정성과 가소성에 미치는 영향을 간과하며, 매개변수 수준에서만 균형을 맞추려고 합니다. 본 논문에서는 아키텍처 수준에서의 안정성과 가소성 간의 갈등을 심층적으로 탐구합니다. 우리는 동일한 매개변수 제약 하에서, 더 깊은 네트워크가 더 나은 가소성을 보이는 반면, 더 넓은 네트워크는 더 우수한 안정성을 특징으로 한다는 것을 밝혀냅니다. 이러한 아키텍처 수준의 딜레마를 해결하기 위해, 우리는 CL을 위한 플러그인 구성 요소로 작동하는 새로운 프레임워크인 Dual-Arch를 소개합니다. 이 프레임워크는 두 가지 독립적이고 구별되는 네트워크의 상호 보완적인 강점을 활용합니다: 하나는 가소성에 전념하고, 다른 하나는 안정성에 전념합니다. 각 네트워크는 각자의 목적에 맞게 특화된 경량 아키텍처로 설계되었습니다. 광범위한 실험을 통해 Dual-Arch가 기존 CL 방법들의 성능을 향상시키면서도 매개변수 측면에서 최대 87% 더 컴팩트함을 입증했습니다.
English
The quest for Continual Learning (CL) seeks to empower neural networks with
the ability to learn and adapt incrementally. Central to this pursuit is
addressing the stability-plasticity dilemma, which involves striking a balance
between two conflicting objectives: preserving previously learned knowledge and
acquiring new knowledge. While numerous CL methods aim to achieve this
trade-off, they often overlook the impact of network architecture on stability
and plasticity, restricting the trade-off to the parameter level. In this
paper, we delve into the conflict between stability and plasticity at the
architectural level. We reveal that under an equal parameter constraint, deeper
networks exhibit better plasticity, while wider networks are characterized by
superior stability. To address this architectural-level dilemma, we introduce a
novel framework denoted Dual-Arch, which serves as a plug-in component for CL.
This framework leverages the complementary strengths of two distinct and
independent networks: one dedicated to plasticity and the other to stability.
Each network is designed with a specialized and lightweight architecture,
tailored to its respective objective. Extensive experiments demonstrate that
Dual-Arch enhances the performance of existing CL methods while being up to 87%
more compact in terms of parameters.