Planification Linguistique des Vidéos
Video Language Planning
October 16, 2023
Auteurs: Yilun Du, Mengjiao Yang, Pete Florence, Fei Xia, Ayzaan Wahid, Brian Ichter, Pierre Sermanet, Tianhe Yu, Pieter Abbeel, Joshua B. Tenenbaum, Leslie Kaelbling, Andy Zeng, Jonathan Tompson
cs.AI
Résumé
Nous nous intéressons à l'élaboration de plans visuels pour des tâches complexes à long terme dans l'espace des vidéos générées et du langage, en exploitant les avancées récentes des modèles génératifs de grande envergure pré-entraînés sur des données à l'échelle d'Internet. À cette fin, nous présentons la planification vidéo-langage (VLP), un algorithme qui consiste en une procédure de recherche arborescente, où nous entraînons (i) des modèles vision-langage pour servir à la fois de politiques et de fonctions de valeur, et (ii) des modèles texte-à-vidéo comme modèles de dynamique. VLP prend en entrée une instruction de tâche à long terme et une observation d'image actuelle, et produit un plan vidéo détaillé qui fournit des spécifications multimodales (vidéo et langage) décrivant comment accomplir la tâche finale. VLP s'adapte à l'augmentation du budget de calcul, où un temps de calcul plus important améliore les plans vidéo, et est capable de synthétiser des plans vidéo à long terme dans différents domaines robotiques : du réarrangement multi-objets à la manipulation dextre bi-bras multi-caméras. Les plans vidéo générés peuvent être traduits en actions robotiques réelles via des politiques conditionnées par objectif, conditionnées sur chaque image intermédiaire de la vidéo générée. Les expériences montrent que VLP améliore considérablement les taux de réussite des tâches à long terme par rapport aux méthodes antérieures, tant sur des robots simulés que réels (sur 3 plateformes matérielles).
English
We are interested in enabling visual planning for complex long-horizon tasks
in the space of generated videos and language, leveraging recent advances in
large generative models pretrained on Internet-scale data. To this end, we
present video language planning (VLP), an algorithm that consists of a tree
search procedure, where we train (i) vision-language models to serve as both
policies and value functions, and (ii) text-to-video models as dynamics models.
VLP takes as input a long-horizon task instruction and current image
observation, and outputs a long video plan that provides detailed multimodal
(video and language) specifications that describe how to complete the final
task. VLP scales with increasing computation budget where more computation time
results in improved video plans, and is able to synthesize long-horizon video
plans across different robotics domains: from multi-object rearrangement, to
multi-camera bi-arm dexterous manipulation. Generated video plans can be
translated into real robot actions via goal-conditioned policies, conditioned
on each intermediate frame of the generated video. Experiments show that VLP
substantially improves long-horizon task success rates compared to prior
methods on both simulated and real robots (across 3 hardware platforms).