DragAPart: Het leren van een bewegingsprior op onderdeelniveau voor gearticuleerde objecten
DragAPart: Learning a Part-Level Motion Prior for Articulated Objects
March 22, 2024
Auteurs: Ruining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi
cs.AI
Samenvatting
We introduceren DragAPart, een methode die, gegeven een afbeelding en een set slepen als invoer, een nieuwe afbeelding van hetzelfde object in een nieuwe toestand kan genereren, compatibel met de actie van de slepen. In tegenstelling tot eerdere werken die zich richtten op het herpositioneren van objecten, voorspelt DragAPart interacties op onderdeelniveau, zoals het openen en sluiten van een lade. We bestuderen dit probleem als een proxy voor het leren van een algemeen bewegingsmodel, niet beperkt tot een specifieke kinematische structuur of objectcategorie. Hiertoe beginnen we met een vooraf getrainde afbeeldingsgenerator en finetunen we deze op een nieuwe synthetische dataset, Drag-a-Move, die we introduceren. In combinatie met een nieuwe codering voor de slepen en datasetrandomisatie, generaliseert het nieuwe model goed naar echte afbeeldingen en verschillende categorieën. In vergelijking met eerdere bewegingsgestuurde generatoren, demonstreren we een veel beter begrip van beweging op onderdeelniveau.
English
We introduce DragAPart, a method that, given an image and a set of drags as
input, can generate a new image of the same object in a new state, compatible
with the action of the drags. Differently from prior works that focused on
repositioning objects, DragAPart predicts part-level interactions, such as
opening and closing a drawer. We study this problem as a proxy for learning a
generalist motion model, not restricted to a specific kinematic structure or
object category. To this end, we start from a pre-trained image generator and
fine-tune it on a new synthetic dataset, Drag-a-Move, which we introduce.
Combined with a new encoding for the drags and dataset randomization, the new
model generalizes well to real images and different categories. Compared to
prior motion-controlled generators, we demonstrate much better part-level
motion understanding.