Gen2Act: Menselijke Video Generatie in Nieuwe Scenario's maakt Generaliseerbare Robot Manipulatie mogelijk.
Gen2Act: Human Video Generation in Novel Scenarios enables Generalizable Robot Manipulation
September 24, 2024
Auteurs: Homanga Bharadhwaj, Debidatta Dwibedi, Abhinav Gupta, Shubham Tulsiani, Carl Doersch, Ted Xiao, Dhruv Shah, Fei Xia, Dorsa Sadigh, Sean Kirmani
cs.AI
Samenvatting
Hoe kunnen robot manipulatiebeleidslijnen generaliseren naar nieuwe taken met ongeziene objecttypes en nieuwe bewegingen? In dit artikel bieden we een oplossing aan door bewegingsinformatie te voorspellen van webgegevens via menselijke videogeneratie en het conditioneren van een robotbeleid op de gegenereerde video. In plaats van te proberen robotgegevensverzameling op te schalen, wat duur is, laten we zien hoe we videogeneratiemodellen kunnen benutten die zijn getraind op gemakkelijk beschikbare webgegevens, om generalisatie mogelijk te maken. Onze aanpak Gen2Act stelt manipulatie geconditioneerd door taal voor als zero-shot menselijke videogeneratie gevolgd door uitvoering met een enkel beleid geconditioneerd op de gegenereerde video. Om het beleid te trainen, gebruiken we een orde van grootte minder robotinteractiegegevens in vergelijking met waarop het videovoorspellingsmodel was getraind. Gen2Act vereist helemaal geen fijnafstemming van het videomodel en we gebruiken rechtstreeks een voorgeleerd model voor het genereren van menselijke video's. Onze resultaten in diverse real-world scenario's tonen hoe Gen2Act het mogelijk maakt om ongeziene objecttypes te manipuleren en nieuwe bewegingen uit te voeren voor taken die niet aanwezig zijn in de robotgegevens. Video's zijn te vinden op https://homangab.github.io/gen2act/
English
How can robot manipulation policies generalize to novel tasks involving
unseen object types and new motions? In this paper, we provide a solution in
terms of predicting motion information from web data through human video
generation and conditioning a robot policy on the generated video. Instead of
attempting to scale robot data collection which is expensive, we show how we
can leverage video generation models trained on easily available web data, for
enabling generalization. Our approach Gen2Act casts language-conditioned
manipulation as zero-shot human video generation followed by execution with a
single policy conditioned on the generated video. To train the policy, we use
an order of magnitude less robot interaction data compared to what the video
prediction model was trained on. Gen2Act doesn't require fine-tuning the video
model at all and we directly use a pre-trained model for generating human
videos. Our results on diverse real-world scenarios show how Gen2Act enables
manipulating unseen object types and performing novel motions for tasks not
present in the robot data. Videos are at https://homangab.github.io/gen2act/Summary
AI-Generated Summary