Repensando o Dilema Estabilidade-Plasticidade na Aprendizagem Contínua sob uma Perspectiva Arquitetural

Resumo

A busca pela Aprendizagem Contínua (CL, do inglês Continual Learning) visa capacitar redes neurais com a habilidade de aprender e se adaptar de forma incremental. Central para essa busca é o enfrentamento do dilema estabilidade-plasticidade, que envolve encontrar um equilíbrio entre dois objetivos conflitantes: preservar o conhecimento previamente aprendido e adquirir novos conhecimentos. Embora diversos métodos de CL busquem alcançar esse equilíbrio, eles frequentemente negligenciam o impacto da arquitetura da rede na estabilidade e na plasticidade, restringindo o trade-off ao nível dos parâmetros. Neste artigo, exploramos o conflito entre estabilidade e plasticidade no nível arquitetural. Revelamos que, sob uma restrição igual de parâmetros, redes mais profundas exibem melhor plasticidade, enquanto redes mais largas são caracterizadas por uma estabilidade superior. Para abordar esse dilema no nível arquitetural, introduzimos um novo framework denominado Dual-Arch, que funciona como um componente plug-in para CL. Esse framework aproveita os pontos fortes complementares de duas redes distintas e independentes: uma dedicada à plasticidade e outra à estabilidade. Cada rede é projetada com uma arquitetura especializada e leve, adaptada ao seu respectivo objetivo. Experimentos extensivos demonstram que o Dual-Arch melhora o desempenho dos métodos existentes de CL, ao mesmo tempo em que é até 87% mais compacto em termos de parâmetros.

English

The quest for Continual Learning (CL) seeks to empower neural networks with the ability to learn and adapt incrementally. Central to this pursuit is addressing the stability-plasticity dilemma, which involves striking a balance between two conflicting objectives: preserving previously learned knowledge and acquiring new knowledge. While numerous CL methods aim to achieve this trade-off, they often overlook the impact of network architecture on stability and plasticity, restricting the trade-off to the parameter level. In this paper, we delve into the conflict between stability and plasticity at the architectural level. We reveal that under an equal parameter constraint, deeper networks exhibit better plasticity, while wider networks are characterized by superior stability. To address this architectural-level dilemma, we introduce a novel framework denoted Dual-Arch, which serves as a plug-in component for CL. This framework leverages the complementary strengths of two distinct and independent networks: one dedicated to plasticity and the other to stability. Each network is designed with a specialized and lightweight architecture, tailored to its respective objective. Extensive experiments demonstrate that Dual-Arch enhances the performance of existing CL methods while being up to 87% more compact in terms of parameters.

Repensando o Dilema Estabilidade-Plasticidade na Aprendizagem Contínua sob uma Perspectiva Arquitetural

Rethinking the Stability-Plasticity Trade-off in Continual Learning from an Architectural Perspective

Resumo

Support