Gen2Act : Génération de vidéos humaines dans des scénarios nouveaux permettant la manipulation de robots généralisable.

papers.abstract

Comment les politiques de manipulation des robots peuvent-elles se généraliser à de nouvelles tâches impliquant des types d'objets inconnus et de nouveaux mouvements ? Dans cet article, nous proposons une solution basée sur la prédiction des informations de mouvement à partir de données web grâce à la génération de vidéos humaines et à la condition d'une politique robotique sur la vidéo générée. Au lieu de tenter de mettre à l'échelle la collecte de données des robots, qui est coûteuse, nous montrons comment nous pouvons exploiter des modèles de génération de vidéos entraînés sur des données web facilement disponibles, pour permettre la généralisation. Notre approche Gen2Act considère la manipulation conditionnée par le langage comme une génération de vidéos humaines à zéro-shot suivie d'une exécution avec une seule politique conditionnée par la vidéo générée. Pour entraîner la politique, nous utilisons un ordre de grandeur de données d'interaction robotique inférieur à celui sur lequel le modèle de prédiction vidéo a été formé. Gen2Act ne nécessite aucun ajustement fin du modèle vidéo et nous utilisons directement un modèle pré-entraîné pour générer des vidéos humaines. Nos résultats sur divers scénarios du monde réel montrent comment Gen2Act permet de manipuler des types d'objets inconnus et d'effectuer de nouveaux mouvements pour des tâches non présentes dans les données des robots. Les vidéos sont disponibles sur https://homangab.github.io/gen2act/

English

How can robot manipulation policies generalize to novel tasks involving unseen object types and new motions? In this paper, we provide a solution in terms of predicting motion information from web data through human video generation and conditioning a robot policy on the generated video. Instead of attempting to scale robot data collection which is expensive, we show how we can leverage video generation models trained on easily available web data, for enabling generalization. Our approach Gen2Act casts language-conditioned manipulation as zero-shot human video generation followed by execution with a single policy conditioned on the generated video. To train the policy, we use an order of magnitude less robot interaction data compared to what the video prediction model was trained on. Gen2Act doesn't require fine-tuning the video model at all and we directly use a pre-trained model for generating human videos. Our results on diverse real-world scenarios show how Gen2Act enables manipulating unseen object types and performing novel motions for tasks not present in the robot data. Videos are at https://homangab.github.io/gen2act/

Gen2Act : Génération de vidéos humaines dans des scénarios nouveaux permettant la manipulation de robots généralisable.

Gen2Act: Human Video Generation in Novel Scenarios enables Generalizable Robot Manipulation

papers.abstract

Support