Reconstruindo Objetos Manuseados em 3D
Reconstructing Hand-Held Objects in 3D
April 9, 2024
Autores: Jane Wu, Georgios Pavlakos, Georgia Gkioxari, Jitendra Malik
cs.AI
Resumo
Objetos manipulados pela mão (ou seja, manipulanda) são particularmente desafiadores de reconstruir a partir de imagens ou vídeos RGB capturados em ambientes reais. Não apenas a mão oclui grande parte do objeto, mas também o objeto frequentemente é visível apenas em um pequeno número de pixels da imagem. Ao mesmo tempo, dois fortes pontos de referência surgem nesse cenário: (1) mãos 3D estimadas ajudam a desambiguar a localização e a escala do objeto, e (2) o conjunto de manipulanda é pequeno em relação a todos os objetos possíveis. Com esses insights em mente, apresentamos um paradigma escalável para a reconstrução de objetos segurados pela mão, que se baseia em avanços recentes em modelos de linguagem/visão de grande escala e conjuntos de dados de objetos 3D. Nosso modelo, MCC-Hand-Object (MCC-HO), reconstrói conjuntamente a geometria da mão e do objeto a partir de uma única imagem RGB e de uma mão 3D inferida como entradas. Posteriormente, usamos o GPT-4(V) para recuperar um modelo 3D do objeto que corresponda ao objeto na imagem e alinhamos rigidamente o modelo à geometria inferida pela rede; chamamos esse alinhamento de Reconstrução Aumentada por Recuperação (RAR). Experimentos demonstram que o MCC-HO alcança desempenho de ponta em conjuntos de dados de laboratório e da Internet, e mostramos como o RAR pode ser usado para obter automaticamente rótulos 3D para imagens de interações mão-objeto capturadas em ambientes reais.
English
Objects manipulated by the hand (i.e., manipulanda) are particularly
challenging to reconstruct from in-the-wild RGB images or videos. Not only does
the hand occlude much of the object, but also the object is often only visible
in a small number of image pixels. At the same time, two strong anchors emerge
in this setting: (1) estimated 3D hands help disambiguate the location and
scale of the object, and (2) the set of manipulanda is small relative to all
possible objects. With these insights in mind, we present a scalable paradigm
for handheld object reconstruction that builds on recent breakthroughs in large
language/vision models and 3D object datasets. Our model, MCC-Hand-Object
(MCC-HO), jointly reconstructs hand and object geometry given a single RGB
image and inferred 3D hand as inputs. Subsequently, we use GPT-4(V) to retrieve
a 3D object model that matches the object in the image and rigidly align the
model to the network-inferred geometry; we call this alignment
Retrieval-Augmented Reconstruction (RAR). Experiments demonstrate that MCC-HO
achieves state-of-the-art performance on lab and Internet datasets, and we show
how RAR can be used to automatically obtain 3D labels for in-the-wild images of
hand-object interactions.