DragAPart: Aprendiendo un Prior de Movimiento a Nivel de Partes para Objetos Articulados
DragAPart: Learning a Part-Level Motion Prior for Articulated Objects
March 22, 2024
Autores: Ruining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi
cs.AI
Resumen
Presentamos DragAPart, un método que, dada una imagen y un conjunto de arrastres como entrada, puede generar una nueva imagen del mismo objeto en un nuevo estado, compatible con la acción de los arrastres. A diferencia de trabajos previos que se centraban en reposicionar objetos, DragAPart predice interacciones a nivel de partes, como abrir y cerrar un cajón. Estudiamos este problema como un proxy para aprender un modelo de movimiento generalista, no restringido a una estructura cinemática o categoría de objeto específica. Para ello, partimos de un generador de imágenes preentrenado y lo ajustamos en un nuevo conjunto de datos sintéticos, Drag-a-Move, que introducimos. Combinado con una nueva codificación para los arrastres y la aleatorización del conjunto de datos, el nuevo modelo generaliza bien a imágenes reales y diferentes categorías. En comparación con generadores controlados por movimiento anteriores, demostramos una comprensión mucho mejor del movimiento a nivel de partes.
English
We introduce DragAPart, a method that, given an image and a set of drags as
input, can generate a new image of the same object in a new state, compatible
with the action of the drags. Differently from prior works that focused on
repositioning objects, DragAPart predicts part-level interactions, such as
opening and closing a drawer. We study this problem as a proxy for learning a
generalist motion model, not restricted to a specific kinematic structure or
object category. To this end, we start from a pre-trained image generator and
fine-tune it on a new synthetic dataset, Drag-a-Move, which we introduce.
Combined with a new encoding for the drags and dataset randomization, the new
model generalizes well to real images and different categories. Compared to
prior motion-controlled generators, we demonstrate much better part-level
motion understanding.Summary
AI-Generated Summary