DragAPart: Erlernen einer Bewegungspriorität auf Teilebene für artikulierte Objekte
DragAPart: Learning a Part-Level Motion Prior for Articulated Objects
March 22, 2024
Autoren: Ruining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi
cs.AI
Zusammenfassung
Wir stellen DragAPart vor, eine Methode, die anhand eines Bildes und einer Reihe von Ziehungen als Eingabe ein neues Bild des gleichen Objekts in einem neuen Zustand generieren kann, der mit der Aktion der Ziehungen kompatibel ist. Im Gegensatz zu früheren Arbeiten, die sich auf das Umpositionieren von Objekten konzentrierten, sagt DragAPart Teilinteraktionen voraus, wie das Öffnen und Schließen einer Schublade. Wir untersuchen dieses Problem als Stellvertreter für das Erlernen eines generalistischen Bewegungsmodells, das nicht auf eine spezifische kinematische Struktur oder Objektkategorie beschränkt ist. Zu diesem Zweck starten wir mit einem vorab trainierten Bildgenerator und feinjustieren ihn anhand eines neuen synthetischen Datensatzes, Drag-a-Move, den wir einführen. In Kombination mit einer neuen Codierung für die Ziehungen und der Datenrandomisierung generalisiert das neue Modell gut auf reale Bilder und verschiedene Kategorien. Im Vergleich zu früheren bewegungsgesteuerten Generatoren zeigen wir ein viel besseres Verständnis für Teilbewegungen.
English
We introduce DragAPart, a method that, given an image and a set of drags as
input, can generate a new image of the same object in a new state, compatible
with the action of the drags. Differently from prior works that focused on
repositioning objects, DragAPart predicts part-level interactions, such as
opening and closing a drawer. We study this problem as a proxy for learning a
generalist motion model, not restricted to a specific kinematic structure or
object category. To this end, we start from a pre-trained image generator and
fine-tune it on a new synthetic dataset, Drag-a-Move, which we introduce.
Combined with a new encoding for the drags and dataset randomization, the new
model generalizes well to real images and different categories. Compared to
prior motion-controlled generators, we demonstrate much better part-level
motion understanding.Summary
AI-Generated Summary