Извлекай, не переучивай: Расширение моделей видения-языка-действия на новые задачи во время тестирования

Аннотация

Расширение политики "зрение-язык-действие" (VLA) на новую задачу обычно требует телеуправляемых демонстраций для конкретной задачи и тонкой настройки под каждую задачу, что делает адаптацию затратной как с точки зрения сбора данных, так и вычислительных ресурсов. В данной работе мы показываем, что эти затраты на адаптацию под каждую задачу на стороне целевого воплощения можно заменить поиском (retrieval). Наша политика с дополнением на основе поиска обучается один раз на парных демонстрациях от целевого воплощения (запрос) и более дешевого воплощения (пул, например, видео с рукой человека), после чего замораживается. Новые задачи добавляются при развертывании путем добавления демонстраций со стороны пула в поисковый пул. Замороженная политика учитывает извлеченные траектории на каждом шаге управления, поэтому новые задачи усваиваются за счет индексации данных, а не обновления параметров. Тонкая настройка требуется только для работы с новым, невиданным ранее воплощением, а не для каждой новой задачи. Мы показываем, что поиск улучшает политики независимо от конкретной основы, включая стандартные VLA-политики, но его эффект особенно заметен в Cosmos Policy — модели мира-действия (WAM), основанной на генерации видео. В этой конфигурации поиск обеспечивает грубое продвижение по задаче, в то время как целевая функция WAM для прогнозирования будущих изображений предоставляет дополнительный сигнал визуальной согласованности, который усиливает действия, обусловленные поиском. На задаче PushT мы изучаем, как поиск обеспечивает повторно используемую априорную информацию о движениях высокого уровня для обобщения между воплощениями на неизвестные целевые углы, в то время как на RoboTwin 2.0 наш метод превосходит базовые подходы к обобщению между воплощениями на неизвестных задачах, и мы также демонстрируем метод на реальном роботе.

English

Extending a vision-language-action (VLA) policy to a new task typically requires task-specific teleoperated demonstrations and per-task fine-tuning, making adaptation costly in both data collection and compute. In this paper, we show that this target-side per-task adaptation cost can be replaced by retrieval. Our retrieval-augmented policy is trained once on paired demonstrations from the target embodiment (query) and a cheaper embodiment (pool, e.g., human-hand video), then frozen. New tasks are added at deployment by appending pool-side demonstrations to a retrieval pool. The frozen policy conditions on retrieved trajectories at every control step, so new tasks are absorbed by indexing data rather than updating parameters. Fine-tuning is needed only to take on a new, unseen embodiment, not for each new task. We show that retrieval improves policies beyond a specific backbone, including standard VLA policies, but its effect is especially pronounced in Cosmos Policy, a video-generation-based world-action model (WAM). In this setting, retrieval supplies coarse task progression, while the WAM's future-image objective provides an additional visual consistency signal that strengthens the retrieval-conditioned actions. On PushT, we study how retrieval provides a reusable high-level motion prior for cross-embodiment generalization to unseen goal angles, while on RoboTwin 2.0 our method outperforms cross-embodiment baselines on unseen tasks, and we additionally demonstrate the method on a real robot.