CLARE : Apprentissage Continu pour les Modèles Vision-Langue-Action via un Routage et une Expansion Autonomes des Adaptateurs
CLARE: Continual Learning for Vision-Language-Action Models via Autonomous Adapter Routing and Expansion
January 14, 2026
papers.authors: Ralf Römer, Yi Zhang, Angela P. Schoellig
cs.AI
papers.abstract
Pour enseigner aux robots des tâches de manipulation complexes, il est désormais courant d'affiner un modèle vision-langage-action (VLA) pré-entraîné sur des données spécifiques à une tâche. Cependant, cette approche modifiant les représentations existantes, elle est inadaptée à un fonctionnement à long terme dans le monde réel, où les robots doivent s'adapter continuellement à de nouvelles tâches et environnements tout en conservant les connaissances déjà acquises. Les méthodes existantes d'apprentissage continu en robotique nécessitent généralement de stocker les données antérieures (exemplaires), peinent à gérer de longues séquences de tâches, ou reposent sur des identifiants de tâche pour le déploiement. Pour surmonter ces limitations, nous proposons CLARE, un cadre général et efficace en paramètres pour l'apprentissage continu sans exemplaires avec les VLA. CLARE intègre des adaptateurs modulaires légers dans certaines couches feedforward et étend le modèle de manière autonome uniquement là où c'est nécessaire lors de l'apprentissage d'une nouvelle tâche, guidé par la similarité des caractéristiques par couche. Pendant le déploiement, un mécanisme de routage basé sur un autoencodeur active dynamiquement les adaptateurs les plus pertinents sans nécessiter d'étiquettes de tâche. Grâce à des expériences approfondies sur le benchmark LIBERO, nous montrons que CLARE atteint des performances élevées sur les nouvelles tâches sans oubli catastrophique des tâches antérieures, surpassant significativement même les méthodes basées sur des exemplaires. Le code et les données sont disponibles à l'adresse https://tum-lsy.github.io/clare.
English
To teach robots complex manipulation tasks, it is now a common practice to fine-tune a pre-trained vision-language-action model (VLA) on task-specific data. However, since this recipe updates existing representations, it is unsuitable for long-term operation in the real world, where robots must continually adapt to new tasks and environments while retaining the knowledge they have already acquired. Existing continual learning methods for robotics commonly require storing previous data (exemplars), struggle with long task sequences, or rely on task identifiers for deployment. To address these limitations, we propose CLARE, a general, parameter-efficient framework for exemplar-free continual learning with VLAs. CLARE introduces lightweight modular adapters into selected feedforward layers and autonomously expands the model only where necessary when learning a new task, guided by layer-wise feature similarity. During deployment, an autoencoder-based routing mechanism dynamically activates the most relevant adapters without requiring task labels. Through extensive experiments on the LIBERO benchmark, we show that CLARE achieves high performance on new tasks without catastrophic forgetting of earlier tasks, significantly outperforming even exemplar-based methods. Code and data are available at https://tum-lsy.github.io/clare.