CLARE: Aprendizado Contínuo para Modelos Visão-Linguagem-Ação via Roteamento e Expansão Autônoma de Adaptadores

Resumo

Para ensinar robôs tarefas complexas de manipulação, é atualmente uma prática comum ajustar um modelo pré-treinado de visão-linguagem-ação (VLA) com dados específicos da tarefa. No entanto, como esta abordagem atualiza as representações existentes, é inadequada para operação de longo prazo no mundo real, onde os robôs devem adaptar-se continuamente a novas tarefas e ambientes, mantendo simultaneamente o conhecimento já adquirido. Os métodos existentes de aprendizagem contínua para robótica geralmente exigem o armazenamento de dados anteriores (exemplares), têm dificuldades com sequências longas de tarefas ou dependem de identificadores de tarefas para implementação. Para superar estas limitações, propomos a CLARE, uma estrutura geral e eficiente em parâmetros para aprendizagem contínua sem exemplares com VLAs. A CLARE introduz adaptadores modulares leves em camadas *feedforward* selecionadas e expande o modelo de forma autónoma apenas onde necessário durante a aprendizagem de uma nova tarefa, orientada pela similaridade de características por camadas. Durante a implementação, um mecanismo de encaminhamento baseado em autoencoder ativa dinamicamente os adaptadores mais relevantes sem exigir etiquetas de tarefas. Através de experiências extensivas no benchmark LIBERO, demonstramos que a CLARE alcança alto desempenho em novas tarefas sem sofrer de esquecimento catastrófico de tarefas anteriores, superando significativamente até mesmo métodos baseados em exemplares. O código e os dados estão disponíveis em https://tum-lsy.github.io/clare.

English

To teach robots complex manipulation tasks, it is now a common practice to fine-tune a pre-trained vision-language-action model (VLA) on task-specific data. However, since this recipe updates existing representations, it is unsuitable for long-term operation in the real world, where robots must continually adapt to new tasks and environments while retaining the knowledge they have already acquired. Existing continual learning methods for robotics commonly require storing previous data (exemplars), struggle with long task sequences, or rely on task identifiers for deployment. To address these limitations, we propose CLARE, a general, parameter-efficient framework for exemplar-free continual learning with VLAs. CLARE introduces lightweight modular adapters into selected feedforward layers and autonomously expands the model only where necessary when learning a new task, guided by layer-wise feature similarity. During deployment, an autoencoder-based routing mechanism dynamically activates the most relevant adapters without requiring task labels. Through extensive experiments on the LIBERO benchmark, we show that CLARE achieves high performance on new tasks without catastrophic forgetting of earlier tasks, significantly outperforming even exemplar-based methods. Code and data are available at https://tum-lsy.github.io/clare.

CLARE: Aprendizado Contínuo para Modelos Visão-Linguagem-Ação via Roteamento e Expansão Autônoma de Adaptadores

CLARE: Continual Learning for Vision-Language-Action Models via Autonomous Adapter Routing and Expansion

Resumo

Support