DragAPart: Aprendendo um Prior de Movimento em Nível de Parte para Objetos Articulados

Resumo

Apresentamos o DragAPart, um método que, dada uma imagem e um conjunto de arrastos como entrada, pode gerar uma nova imagem do mesmo objeto em um novo estado, compatível com a ação dos arrastos. Diferentemente de trabalhos anteriores que se concentraram no reposicionamento de objetos, o DragAPart prevê interações em nível de partes, como abrir e fechar uma gaveta. Estudamos esse problema como um proxy para aprender um modelo de movimento generalista, não restrito a uma estrutura cinemática ou categoria de objeto específica. Para isso, partimos de um gerador de imagens pré-treinado e o ajustamos em um novo conjunto de dados sintético, o Drag-a-Move, que introduzimos. Combinado com uma nova codificação para os arrastos e randomização do conjunto de dados, o novo modelo generaliza bem para imagens reais e diferentes categorias. Em comparação com geradores controlados por movimento anteriores, demonstramos uma compreensão muito melhor do movimento em nível de partes.

English

We introduce DragAPart, a method that, given an image and a set of drags as input, can generate a new image of the same object in a new state, compatible with the action of the drags. Differently from prior works that focused on repositioning objects, DragAPart predicts part-level interactions, such as opening and closing a drawer. We study this problem as a proxy for learning a generalist motion model, not restricted to a specific kinematic structure or object category. To this end, we start from a pre-trained image generator and fine-tune it on a new synthetic dataset, Drag-a-Move, which we introduce. Combined with a new encoding for the drags and dataset randomization, the new model generalizes well to real images and different categories. Compared to prior motion-controlled generators, we demonstrate much better part-level motion understanding.

DragAPart: Aprendendo um Prior de Movimento em Nível de Parte para Objetos Articulados

DragAPart: Learning a Part-Level Motion Prior for Articulated Objects

Resumo

Support