CLARE: Kontinuierliches Lernen für Vision-Sprache-Handlungs-Modelle durch autonomes Adapter-Routing und -Erweiterung
CLARE: Continual Learning for Vision-Language-Action Models via Autonomous Adapter Routing and Expansion
January 14, 2026
papers.authors: Ralf Römer, Yi Zhang, Angela P. Schoellig
cs.AI
papers.abstract
Um Robotern komplexe Manipulationsaufgaben beizubringen, ist es heute gängige Praxis, ein vortrainiertes Vision-Language-Action-Modell (VLA) auf aufgabenspezifische Daten zu feinabstimmen. Da dieser Ansatz jedoch bestehende Repräsentationen aktualisiert, ist er für den langfristigen Einsatz in der realen Welt ungeeignet, in der Roboter kontinuierlich an neue Aufgaben und Umgebungen anpassungsfähig sein müssen, während sie bereits erworbenes Wissen beibehalten. Bestehende Methoden für kontinuierliches Lernen in der Robotik erfordern typischerweise die Speicherung früherer Daten (Exemplare), haben Schwierigkeiten mit langen Aufgabenfolgen oder sind für den Einsatz auf Aufgabenkennungen angewiesen. Um diese Einschränkungen zu überwinden, schlagen wir CLARE vor, einen allgemeinen, parameter-effizienten Rahmen für exemplarfreies kontinuierliches Lernen mit VLAs. CLARE führt leichte modulare Adapter in ausgewählten Feedforward-Schichten ein und erweitert das Modell autonom nur dort, wo es beim Lernen einer neuen Aufgabe notwendig ist, geleitet durch schichtweise Ähnlichkeit der Merkmale. Während des Einsatzes aktiviert ein Autoencoder-basierter Routing-Mechanismus dynamisch die relevantesten Adapter, ohne dass Aufgabenkennungen erforderlich sind. Durch umfangreiche Experimente mit dem LIBERO-Benchmark zeigen wir, dass CLARE hohe Leistung bei neuen Aufgaben erreicht, ohne dass ein katastrophales Vergessen früherer Aufgaben auftritt, und dabei sogar exemplarbasierte Methoden signifikant übertrifft. Code und Daten sind verfügbar unter https://tum-lsy.github.io/clare.
English
To teach robots complex manipulation tasks, it is now a common practice to fine-tune a pre-trained vision-language-action model (VLA) on task-specific data. However, since this recipe updates existing representations, it is unsuitable for long-term operation in the real world, where robots must continually adapt to new tasks and environments while retaining the knowledge they have already acquired. Existing continual learning methods for robotics commonly require storing previous data (exemplars), struggle with long task sequences, or rely on task identifiers for deployment. To address these limitations, we propose CLARE, a general, parameter-efficient framework for exemplar-free continual learning with VLAs. CLARE introduces lightweight modular adapters into selected feedforward layers and autonomously expands the model only where necessary when learning a new task, guided by layer-wise feature similarity. During deployment, an autoencoder-based routing mechanism dynamically activates the most relevant adapters without requiring task labels. Through extensive experiments on the LIBERO benchmark, we show that CLARE achieves high performance on new tasks without catastrophic forgetting of earlier tasks, significantly outperforming even exemplar-based methods. Code and data are available at https://tum-lsy.github.io/clare.