Gen2Act : Génération de vidéos humaines dans des scénarios nouveaux permettant la manipulation de robots généralisable.
Gen2Act: Human Video Generation in Novel Scenarios enables Generalizable Robot Manipulation
September 24, 2024
Auteurs: Homanga Bharadhwaj, Debidatta Dwibedi, Abhinav Gupta, Shubham Tulsiani, Carl Doersch, Ted Xiao, Dhruv Shah, Fei Xia, Dorsa Sadigh, Sean Kirmani
cs.AI
Résumé
Comment les politiques de manipulation des robots peuvent-elles se généraliser à de nouvelles tâches impliquant des types d'objets inconnus et de nouveaux mouvements ? Dans cet article, nous proposons une solution basée sur la prédiction des informations de mouvement à partir de données web grâce à la génération de vidéos humaines et à la condition d'une politique robotique sur la vidéo générée. Au lieu de tenter de mettre à l'échelle la collecte de données des robots, qui est coûteuse, nous montrons comment nous pouvons exploiter des modèles de génération de vidéos entraînés sur des données web facilement disponibles, pour permettre la généralisation. Notre approche Gen2Act considère la manipulation conditionnée par le langage comme une génération de vidéos humaines à zéro-shot suivie d'une exécution avec une seule politique conditionnée par la vidéo générée. Pour entraîner la politique, nous utilisons un ordre de grandeur de données d'interaction robotique inférieur à celui sur lequel le modèle de prédiction vidéo a été formé. Gen2Act ne nécessite aucun ajustement fin du modèle vidéo et nous utilisons directement un modèle pré-entraîné pour générer des vidéos humaines. Nos résultats sur divers scénarios du monde réel montrent comment Gen2Act permet de manipuler des types d'objets inconnus et d'effectuer de nouveaux mouvements pour des tâches non présentes dans les données des robots. Les vidéos sont disponibles sur https://homangab.github.io/gen2act/
English
How can robot manipulation policies generalize to novel tasks involving
unseen object types and new motions? In this paper, we provide a solution in
terms of predicting motion information from web data through human video
generation and conditioning a robot policy on the generated video. Instead of
attempting to scale robot data collection which is expensive, we show how we
can leverage video generation models trained on easily available web data, for
enabling generalization. Our approach Gen2Act casts language-conditioned
manipulation as zero-shot human video generation followed by execution with a
single policy conditioned on the generated video. To train the policy, we use
an order of magnitude less robot interaction data compared to what the video
prediction model was trained on. Gen2Act doesn't require fine-tuning the video
model at all and we directly use a pre-trained model for generating human
videos. Our results on diverse real-world scenarios show how Gen2Act enables
manipulating unseen object types and performing novel motions for tasks not
present in the robot data. Videos are at https://homangab.github.io/gen2act/Summary
AI-Generated Summary