ChatPaper.aiChatPaper

DragAPart: Erlernen einer Bewegungspriorität auf Teilebene für artikulierte Objekte

DragAPart: Learning a Part-Level Motion Prior for Articulated Objects

March 22, 2024
Autoren: Ruining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi
cs.AI

Zusammenfassung

Wir stellen DragAPart vor, eine Methode, die anhand eines Bildes und einer Reihe von Ziehungen als Eingabe ein neues Bild des gleichen Objekts in einem neuen Zustand generieren kann, der mit der Aktion der Ziehungen kompatibel ist. Im Gegensatz zu früheren Arbeiten, die sich auf das Umpositionieren von Objekten konzentrierten, sagt DragAPart Teilinteraktionen voraus, wie das Öffnen und Schließen einer Schublade. Wir untersuchen dieses Problem als Stellvertreter für das Erlernen eines generalistischen Bewegungsmodells, das nicht auf eine spezifische kinematische Struktur oder Objektkategorie beschränkt ist. Zu diesem Zweck starten wir mit einem vorab trainierten Bildgenerator und feinjustieren ihn anhand eines neuen synthetischen Datensatzes, Drag-a-Move, den wir einführen. In Kombination mit einer neuen Codierung für die Ziehungen und der Datenrandomisierung generalisiert das neue Modell gut auf reale Bilder und verschiedene Kategorien. Im Vergleich zu früheren bewegungsgesteuerten Generatoren zeigen wir ein viel besseres Verständnis für Teilbewegungen.
English
We introduce DragAPart, a method that, given an image and a set of drags as input, can generate a new image of the same object in a new state, compatible with the action of the drags. Differently from prior works that focused on repositioning objects, DragAPart predicts part-level interactions, such as opening and closing a drawer. We study this problem as a proxy for learning a generalist motion model, not restricted to a specific kinematic structure or object category. To this end, we start from a pre-trained image generator and fine-tune it on a new synthetic dataset, Drag-a-Move, which we introduce. Combined with a new encoding for the drags and dataset randomization, the new model generalizes well to real images and different categories. Compared to prior motion-controlled generators, we demonstrate much better part-level motion understanding.

Summary

AI-Generated Summary

PDF111December 15, 2024