ChatPaper.aiChatPaper

CLARE: Aprendizaje Continuo para Modelos Visión-Lenguaje-Acción mediante Enrutamiento y Expansión Autónoma de Adaptadores

CLARE: Continual Learning for Vision-Language-Action Models via Autonomous Adapter Routing and Expansion

January 14, 2026
Autores: Ralf Römer, Yi Zhang, Angela P. Schoellig
cs.AI

Resumen

Para enseñar a los robots tareas de manipulación complejas, es una práctica común ajustar (fine-tune) un modelo preentrenado de visión-lenguaje-acción (VLA) con datos específicos de la tarea. Sin embargo, dado que este método actualiza las representaciones existentes, no es adecuado para una operación a largo plazo en el mundo real, donde los robots deben adaptarse continuamente a nuevas tareas y entornos, al mismo tiempo que retienen el conocimiento ya adquirido. Los métodos existentes de aprendizaje continuo en robótica suelen requerir el almacenamiento de datos previos (ejemplares), tienen dificultades con secuencias largas de tareas o dependen de identificadores de tarea para su despliegue. Para abordar estas limitaciones, proponemos CLARE, un marco general y eficiente en parámetros para el aprendizaje continuo sin ejemplares con VLAs. CLARE introduce adaptadores modulares ligeros en capas feedforward seleccionadas y expande el modelo de forma autónoma solo donde es necesario al aprender una nueva tarea, guiado por la similitud de características por capas. Durante el despliegue, un mecanismo de enrutamiento basado en autoencoders activa dinámicamente los adaptadores más relevantes sin necesidad de etiquetas de tarea. Mediante experimentos exhaustivos en el benchmark LIBERO, demostramos que CLARE logra un alto rendimiento en nuevas tareas sin el olvido catastrófico de tareas anteriores, superando significativamente incluso a los métodos basados en ejemplares. El código y los datos están disponibles en https://tum-lsy.github.io/clare.
English
To teach robots complex manipulation tasks, it is now a common practice to fine-tune a pre-trained vision-language-action model (VLA) on task-specific data. However, since this recipe updates existing representations, it is unsuitable for long-term operation in the real world, where robots must continually adapt to new tasks and environments while retaining the knowledge they have already acquired. Existing continual learning methods for robotics commonly require storing previous data (exemplars), struggle with long task sequences, or rely on task identifiers for deployment. To address these limitations, we propose CLARE, a general, parameter-efficient framework for exemplar-free continual learning with VLAs. CLARE introduces lightweight modular adapters into selected feedforward layers and autonomously expands the model only where necessary when learning a new task, guided by layer-wise feature similarity. During deployment, an autoencoder-based routing mechanism dynamically activates the most relevant adapters without requiring task labels. Through extensive experiments on the LIBERO benchmark, we show that CLARE achieves high performance on new tasks without catastrophic forgetting of earlier tasks, significantly outperforming even exemplar-based methods. Code and data are available at https://tum-lsy.github.io/clare.
PDF12January 21, 2026