ChatPaper.aiChatPaper

CLARE: Непрерывное обучение моделей «зрение-язык-действие» посредством автономной маршрутизации и расширения адаптеров

CLARE: Continual Learning for Vision-Language-Action Models via Autonomous Adapter Routing and Expansion

January 14, 2026
Авторы: Ralf Römer, Yi Zhang, Angela P. Schoellig
cs.AI

Аннотация

Для обучения роботов сложным манипуляционным задачам в настоящее время широко применяется дообучение предварительно обученной визуально-языковой-действенной модели (VLA) на специфичных для задачи данных. Однако, поскольку этот подход обновляет существующие представления, он непригоден для длительной эксплуатации в реальном мире, где роботы должны постоянно адаптироваться к новым задачам и средам, сохраняя при этом уже приобретенные знания. Существующие методы непрерывного обучения в робототехнике обычно требуют хранения предыдущих данных (эталонов), испытывают трудности с длинными последовательностями задач или полагаются на идентификаторы задач для развертывания. Чтобы устранить эти ограничения, мы предлагаем CLARE — универсальную, параметрически эффективную структуру для непрерывного обучения VLA без эталонов. CLARE вводит легковесные модульные адаптеры в выбранные прямосвязные слои и автономно расширяет модель только там, где это необходимо при изучении новой задачи, руководствуясь сходством признаков на уровне слоев. При развертывании механизм маршрутизации на основе автоэнкодера динамически активирует наиболее релевантные адаптеры без необходимости в метках задач. В ходе обширных экспериментов на бенчмарке LIBERO мы показываем, что CLARE достигает высокой производительности на новых задачах без катастрофического забывания предыдущих, значительно превосходя даже методы, основанные на эталонах. Код и данные доступны по адресу https://tum-lsy.github.io/clare.
English
To teach robots complex manipulation tasks, it is now a common practice to fine-tune a pre-trained vision-language-action model (VLA) on task-specific data. However, since this recipe updates existing representations, it is unsuitable for long-term operation in the real world, where robots must continually adapt to new tasks and environments while retaining the knowledge they have already acquired. Existing continual learning methods for robotics commonly require storing previous data (exemplars), struggle with long task sequences, or rely on task identifiers for deployment. To address these limitations, we propose CLARE, a general, parameter-efficient framework for exemplar-free continual learning with VLAs. CLARE introduces lightweight modular adapters into selected feedforward layers and autonomously expands the model only where necessary when learning a new task, guided by layer-wise feature similarity. During deployment, an autoencoder-based routing mechanism dynamically activates the most relevant adapters without requiring task labels. Through extensive experiments on the LIBERO benchmark, we show that CLARE achieves high performance on new tasks without catastrophic forgetting of earlier tasks, significantly outperforming even exemplar-based methods. Code and data are available at https://tum-lsy.github.io/clare.
PDF12January 21, 2026