Récupérez, ne réentraînez pas : Extension des modèles Vision-Langage-Action à de nouvelles tâches en phase de test

Résumé

Étendre une politique vision-langage-action (VLA) à une nouvelle tâche nécessite généralement des démonstrations téléopérées spécifiques à la tâche et un ajustement fin par tâche, ce qui rend l'adaptation coûteuse tant en termes de collecte de données que de calcul. Dans cet article, nous montrons que ce coût d'adaptation par tâche du côté cible peut être remplacé par la récupération. Notre politique augmentée par récupération est entraînée une fois sur des démonstrations appariées provenant de l'incarnation cible (requête) et d'une incarnation moins coûteuse (pool, par exemple, vidéo de main humaine), puis gelée. De nouvelles tâches sont ajoutées lors du déploiement en ajoutant des démonstrations côté pool à un pool de récupération. La politique gelée se conditionne sur les trajectoires récupérées à chaque pas de contrôle, de sorte que les nouvelles tâches sont absorbées par l'indexation des données plutôt que par la mise à jour des paramètres. L'ajustement fin n'est nécessaire que pour prendre en charge une nouvelle incarnation non vue, et non pour chaque nouvelle tâche. Nous montrons que la récupération améliore les politiques au-delà d'un backbone spécifique, y compris les politiques VLA standard, mais son effet est particulièrement prononcé dans Cosmos Policy, un modèle monde-action (WAM) basé sur la génération vidéo. Dans ce contexte, la récupération fournit une progression grossière de la tâche, tandis que l'objectif d'image future du WAM fournit un signal de cohérence visuelle supplémentaire qui renforce les actions conditionnées par la récupération. Sur PushT, nous étudions comment la récupération fournit un a priori de mouvement de haut niveau réutilisable pour la généralisation inter-incarnation à des angles objectifs non vus, tandis que sur RoboTwin 2.0, notre méthode surpasse les lignes de base inter-incarnation sur des tâches non vues, et nous démontrons également la méthode sur un robot réel.

English

Extending a vision-language-action (VLA) policy to a new task typically requires task-specific teleoperated demonstrations and per-task fine-tuning, making adaptation costly in both data collection and compute. In this paper, we show that this target-side per-task adaptation cost can be replaced by retrieval. Our retrieval-augmented policy is trained once on paired demonstrations from the target embodiment (query) and a cheaper embodiment (pool, e.g., human-hand video), then frozen. New tasks are added at deployment by appending pool-side demonstrations to a retrieval pool. The frozen policy conditions on retrieved trajectories at every control step, so new tasks are absorbed by indexing data rather than updating parameters. Fine-tuning is needed only to take on a new, unseen embodiment, not for each new task. We show that retrieval improves policies beyond a specific backbone, including standard VLA policies, but its effect is especially pronounced in Cosmos Policy, a video-generation-based world-action model (WAM). In this setting, retrieval supplies coarse task progression, while the WAM's future-image objective provides an additional visual consistency signal that strengthens the retrieval-conditioned actions. On PushT, we study how retrieval provides a reusable high-level motion prior for cross-embodiment generalization to unseen goal angles, while on RoboTwin 2.0 our method outperforms cross-embodiment baselines on unseen tasks, and we additionally demonstrate the method on a real robot.