Reconstrucción de Objetos Sostenidos en Mano en 3D
Reconstructing Hand-Held Objects in 3D
April 9, 2024
Autores: Jane Wu, Georgios Pavlakos, Georgia Gkioxari, Jitendra Malik
cs.AI
Resumen
Los objetos manipulados por la mano (es decir, manipulanda) son particularmente desafiantes de reconstruir a partir de imágenes o videos RGB en entornos naturales. No solo la mano ocluye gran parte del objeto, sino que además el objeto suele ser visible solo en un pequeño número de píxeles de la imagen. Al mismo tiempo, surgen dos anclajes fuertes en este contexto: (1) las manos 3D estimadas ayudan a desambiguar la ubicación y la escala del objeto, y (2) el conjunto de manipulanda es pequeño en comparación con todos los objetos posibles. Con estas ideas en mente, presentamos un paradigma escalable para la reconstrucción de objetos sostenidos por la mano que se basa en avances recientes en modelos de lenguaje/visión a gran escala y conjuntos de datos de objetos 3D. Nuestro modelo, MCC-Hand-Object (MCC-HO), reconstruye conjuntamente la geometría de la mano y el objeto a partir de una única imagen RGB y una mano 3D inferida como entradas. Posteriormente, utilizamos GPT-4(V) para recuperar un modelo 3D del objeto que coincida con el objeto en la imagen y alineamos rígidamente el modelo con la geometría inferida por la red; denominamos a esta alineación Reconstrucción Aumentada por Recuperación (RAR, por sus siglas en inglés). Los experimentos demuestran que MCC-HO logra un rendimiento de vanguardia en conjuntos de datos de laboratorio y de Internet, y mostramos cómo RAR puede utilizarse para obtener automáticamente etiquetas 3D para imágenes en entornos naturales de interacciones mano-objeto.
English
Objects manipulated by the hand (i.e., manipulanda) are particularly
challenging to reconstruct from in-the-wild RGB images or videos. Not only does
the hand occlude much of the object, but also the object is often only visible
in a small number of image pixels. At the same time, two strong anchors emerge
in this setting: (1) estimated 3D hands help disambiguate the location and
scale of the object, and (2) the set of manipulanda is small relative to all
possible objects. With these insights in mind, we present a scalable paradigm
for handheld object reconstruction that builds on recent breakthroughs in large
language/vision models and 3D object datasets. Our model, MCC-Hand-Object
(MCC-HO), jointly reconstructs hand and object geometry given a single RGB
image and inferred 3D hand as inputs. Subsequently, we use GPT-4(V) to retrieve
a 3D object model that matches the object in the image and rigidly align the
model to the network-inferred geometry; we call this alignment
Retrieval-Augmented Reconstruction (RAR). Experiments demonstrate that MCC-HO
achieves state-of-the-art performance on lab and Internet datasets, and we show
how RAR can be used to automatically obtain 3D labels for in-the-wild images of
hand-object interactions.Summary
AI-Generated Summary