DragAPart : Apprentissage d'un modèle de mouvement au niveau des parties pour les objets articulés
DragAPart: Learning a Part-Level Motion Prior for Articulated Objects
March 22, 2024
Auteurs: Ruining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi
cs.AI
Résumé
Nous présentons DragAPart, une méthode qui, à partir d'une image et d'un ensemble de déplacements en entrée, peut générer une nouvelle image du même objet dans un nouvel état, compatible avec l'action des déplacements. Contrairement aux travaux antérieurs axés sur le repositionnement d'objets, DragAPart prédit des interactions au niveau des parties, comme l'ouverture et la fermeture d'un tiroir. Nous étudions ce problème comme un proxy pour l'apprentissage d'un modèle de mouvement généraliste, non restreint à une structure cinématique ou une catégorie d'objet spécifique. Pour ce faire, nous partons d'un générateur d'images pré-entraîné que nous affinons sur un nouveau jeu de données synthétique, Drag-a-Move, que nous introduisons. Combiné avec un nouvel encodage des déplacements et une randomisation du jeu de données, le nouveau modèle généralise bien aux images réelles et à différentes catégories. Par rapport aux générateurs contrôlés par le mouvement précédents, nous démontrons une bien meilleure compréhension du mouvement au niveau des parties.
English
We introduce DragAPart, a method that, given an image and a set of drags as
input, can generate a new image of the same object in a new state, compatible
with the action of the drags. Differently from prior works that focused on
repositioning objects, DragAPart predicts part-level interactions, such as
opening and closing a drawer. We study this problem as a proxy for learning a
generalist motion model, not restricted to a specific kinematic structure or
object category. To this end, we start from a pre-trained image generator and
fine-tune it on a new synthetic dataset, Drag-a-Move, which we introduce.
Combined with a new encoding for the drags and dataset randomization, the new
model generalizes well to real images and different categories. Compared to
prior motion-controlled generators, we demonstrate much better part-level
motion understanding.Summary
AI-Generated Summary