ChatPaper.aiChatPaper

Gen2Act: Menselijke Video Generatie in Nieuwe Scenario's maakt Generaliseerbare Robot Manipulatie mogelijk.

Gen2Act: Human Video Generation in Novel Scenarios enables Generalizable Robot Manipulation

September 24, 2024
Auteurs: Homanga Bharadhwaj, Debidatta Dwibedi, Abhinav Gupta, Shubham Tulsiani, Carl Doersch, Ted Xiao, Dhruv Shah, Fei Xia, Dorsa Sadigh, Sean Kirmani
cs.AI

Samenvatting

Hoe kunnen robot manipulatiebeleidslijnen generaliseren naar nieuwe taken met ongeziene objecttypes en nieuwe bewegingen? In dit artikel bieden we een oplossing aan door bewegingsinformatie te voorspellen van webgegevens via menselijke videogeneratie en het conditioneren van een robotbeleid op de gegenereerde video. In plaats van te proberen robotgegevensverzameling op te schalen, wat duur is, laten we zien hoe we videogeneratiemodellen kunnen benutten die zijn getraind op gemakkelijk beschikbare webgegevens, om generalisatie mogelijk te maken. Onze aanpak Gen2Act stelt manipulatie geconditioneerd door taal voor als zero-shot menselijke videogeneratie gevolgd door uitvoering met een enkel beleid geconditioneerd op de gegenereerde video. Om het beleid te trainen, gebruiken we een orde van grootte minder robotinteractiegegevens in vergelijking met waarop het videovoorspellingsmodel was getraind. Gen2Act vereist helemaal geen fijnafstemming van het videomodel en we gebruiken rechtstreeks een voorgeleerd model voor het genereren van menselijke video's. Onze resultaten in diverse real-world scenario's tonen hoe Gen2Act het mogelijk maakt om ongeziene objecttypes te manipuleren en nieuwe bewegingen uit te voeren voor taken die niet aanwezig zijn in de robotgegevens. Video's zijn te vinden op https://homangab.github.io/gen2act/
English
How can robot manipulation policies generalize to novel tasks involving unseen object types and new motions? In this paper, we provide a solution in terms of predicting motion information from web data through human video generation and conditioning a robot policy on the generated video. Instead of attempting to scale robot data collection which is expensive, we show how we can leverage video generation models trained on easily available web data, for enabling generalization. Our approach Gen2Act casts language-conditioned manipulation as zero-shot human video generation followed by execution with a single policy conditioned on the generated video. To train the policy, we use an order of magnitude less robot interaction data compared to what the video prediction model was trained on. Gen2Act doesn't require fine-tuning the video model at all and we directly use a pre-trained model for generating human videos. Our results on diverse real-world scenarios show how Gen2Act enables manipulating unseen object types and performing novel motions for tasks not present in the robot data. Videos are at https://homangab.github.io/gen2act/

Summary

AI-Generated Summary

PDF82November 16, 2024