Переосмысление компромисса между стабильностью и пластичностью в непрерывном обучении с архитектурной точки зрения
Rethinking the Stability-Plasticity Trade-off in Continual Learning from an Architectural Perspective
June 4, 2025
Авторы: Aojun Lu, Hangjie Yuan, Tao Feng, Yanan Sun
cs.AI
Аннотация
Стремление к непрерывному обучению (Continual Learning, CL) направлено на наделение нейронных сетей способностью обучаться и адаптироваться постепенно. Ключевым аспектом этого стремления является решение дилеммы стабильности и пластичности, которая заключается в поиске баланса между двумя противоречивыми целями: сохранением ранее усвоенных знаний и приобретением новых. Хотя многочисленные методы CL направлены на достижение этого компромисса, они часто упускают из виду влияние архитектуры сети на стабильность и пластичность, ограничивая компромисс уровнем параметров. В данной статье мы исследуем конфликт между стабильностью и пластичностью на архитектурном уровне. Мы показываем, что при равном ограничении на количество параметров более глубокие сети демонстрируют лучшую пластичность, тогда как более широкие сети характеризуются превосходной стабильностью. Для решения этой дилеммы на архитектурном уровне мы представляем новый фреймворк под названием Dual-Arch, который служит подключаемым компонентом для CL. Этот фреймворк использует комплементарные преимущества двух различных и независимых сетей: одна ориентирована на пластичность, а другая — на стабильность. Каждая сеть разработана с учетом специализированной и легковесной архитектуры, адаптированной под соответствующую цель. Многочисленные эксперименты демонстрируют, что Dual-Arch улучшает производительность существующих методов CL, при этом сокращая количество параметров до 87%.
English
The quest for Continual Learning (CL) seeks to empower neural networks with
the ability to learn and adapt incrementally. Central to this pursuit is
addressing the stability-plasticity dilemma, which involves striking a balance
between two conflicting objectives: preserving previously learned knowledge and
acquiring new knowledge. While numerous CL methods aim to achieve this
trade-off, they often overlook the impact of network architecture on stability
and plasticity, restricting the trade-off to the parameter level. In this
paper, we delve into the conflict between stability and plasticity at the
architectural level. We reveal that under an equal parameter constraint, deeper
networks exhibit better plasticity, while wider networks are characterized by
superior stability. To address this architectural-level dilemma, we introduce a
novel framework denoted Dual-Arch, which serves as a plug-in component for CL.
This framework leverages the complementary strengths of two distinct and
independent networks: one dedicated to plasticity and the other to stability.
Each network is designed with a specialized and lightweight architecture,
tailored to its respective objective. Extensive experiments demonstrate that
Dual-Arch enhances the performance of existing CL methods while being up to 87%
more compact in terms of parameters.