DragAPart: Aprendendo um Prior de Movimento em Nível de Parte para Objetos Articulados
DragAPart: Learning a Part-Level Motion Prior for Articulated Objects
March 22, 2024
Autores: Ruining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi
cs.AI
Resumo
Apresentamos o DragAPart, um método que, dada uma imagem e um conjunto de arrastos como entrada, pode gerar uma nova imagem do mesmo objeto em um novo estado, compatível com a ação dos arrastos. Diferentemente de trabalhos anteriores que se concentraram no reposicionamento de objetos, o DragAPart prevê interações em nível de partes, como abrir e fechar uma gaveta. Estudamos esse problema como um proxy para aprender um modelo de movimento generalista, não restrito a uma estrutura cinemática ou categoria de objeto específica. Para isso, partimos de um gerador de imagens pré-treinado e o ajustamos em um novo conjunto de dados sintético, o Drag-a-Move, que introduzimos. Combinado com uma nova codificação para os arrastos e randomização do conjunto de dados, o novo modelo generaliza bem para imagens reais e diferentes categorias. Em comparação com geradores controlados por movimento anteriores, demonstramos uma compreensão muito melhor do movimento em nível de partes.
English
We introduce DragAPart, a method that, given an image and a set of drags as
input, can generate a new image of the same object in a new state, compatible
with the action of the drags. Differently from prior works that focused on
repositioning objects, DragAPart predicts part-level interactions, such as
opening and closing a drawer. We study this problem as a proxy for learning a
generalist motion model, not restricted to a specific kinematic structure or
object category. To this end, we start from a pre-trained image generator and
fine-tune it on a new synthetic dataset, Drag-a-Move, which we introduce.
Combined with a new encoding for the drags and dataset randomization, the new
model generalizes well to real images and different categories. Compared to
prior motion-controlled generators, we demonstrate much better part-level
motion understanding.