CLARE: Continu Leren voor Visie-Taal-Actie Modellen via Autonome Adapter Routering en Uitbreiding

Samenvatting

Om robots complexe manipulatie taken aan te leren, is het tegenwoordig gangbaar om een vooraf getraind vision-language-action model (VLA) te finetunen op taakspecifieke data. Omdat deze aanpak echter bestaande representaties aanpast, is ze ongeschikt voor langdurige inzet in de echte wereld, waar robots zich continu moeten aanpassen aan nieuwe taken en omgevingen, terwijl ze de reeds verworven kennis moeten behouden. Bestaande methoden voor continu leren in de robotica vereisen doorgaans het opslaan van vorige data (exemplaren), worstelen met lange taaksequenties, of zijn afhankelijk van taakidentificaties voor implementatie. Om deze beperkingen aan te pakken, stellen we CLARE voor, een algemeen, parameter-efficiënt raamwerk voor continu leren zonder exemplaren met VLA's. CLARE introduceert lichtgewicht modulaire adapters in geselecteerde feedforward-lagen en breidt het model autonoom alleen uit waar nodig bij het aanleren van een nieuwe taak, geleid door laaggewijze featuresimilariteit. Tijdens de implementatie activeert een op auto-encoders gebaseerd routeringsmechanisme dynamisch de meest relevante adapters zonder taaklabels te vereisen. Door middel van uitgebreide experimenten op de LIBERO-benchmark tonen we aan dat CLARE hoge prestaties behaalt op nieuwe taken zonder catastrofale vergetelheid van eerdere taken, en daarbij zelfs op exemplaren gebaseerde methoden significant overtreft. Code en data zijn beschikbaar op https://tum-lsy.github.io/clare.

English

To teach robots complex manipulation tasks, it is now a common practice to fine-tune a pre-trained vision-language-action model (VLA) on task-specific data. However, since this recipe updates existing representations, it is unsuitable for long-term operation in the real world, where robots must continually adapt to new tasks and environments while retaining the knowledge they have already acquired. Existing continual learning methods for robotics commonly require storing previous data (exemplars), struggle with long task sequences, or rely on task identifiers for deployment. To address these limitations, we propose CLARE, a general, parameter-efficient framework for exemplar-free continual learning with VLAs. CLARE introduces lightweight modular adapters into selected feedforward layers and autonomously expands the model only where necessary when learning a new task, guided by layer-wise feature similarity. During deployment, an autoencoder-based routing mechanism dynamically activates the most relevant adapters without requiring task labels. Through extensive experiments on the LIBERO benchmark, we show that CLARE achieves high performance on new tasks without catastrophic forgetting of earlier tasks, significantly outperforming even exemplar-based methods. Code and data are available at https://tum-lsy.github.io/clare.

CLARE: Continu Leren voor Visie-Taal-Actie Modellen via Autonome Adapter Routering en Uitbreiding

CLARE: Continual Learning for Vision-Language-Action Models via Autonomous Adapter Routing and Expansion

Samenvatting

Support