Reconstruction d'objets tenus à la main en 3D
Reconstructing Hand-Held Objects in 3D
April 9, 2024
Auteurs: Jane Wu, Georgios Pavlakos, Georgia Gkioxari, Jitendra Malik
cs.AI
Résumé
Les objets manipulés par la main (c'est-à-dire les manipulanda) sont particulièrement difficiles à reconstruire à partir d'images ou de vidéos RGB capturées en conditions réelles. Non seulement la main occulte une grande partie de l'objet, mais celui-ci est souvent visible dans un nombre limité de pixels de l'image. Parallèlement, deux ancrages forts émergent dans ce contexte : (1) les mains 3D estimées aident à désambiguïser la localisation et l'échelle de l'objet, et (2) l'ensemble des manipulanda est restreint par rapport à tous les objets possibles. Forts de ces observations, nous proposons un paradigme évolutif pour la reconstruction d'objets tenus en main, s'appuyant sur les récentes avancées des grands modèles de langage/vision et des ensembles de données d'objets 3D. Notre modèle, MCC-Hand-Object (MCC-HO), reconstruit conjointement la géométrie de la main et de l'objet à partir d'une seule image RGB et d'une main 3D inférée en entrée. Ensuite, nous utilisons GPT-4(V) pour récupérer un modèle 3D d'objet correspondant à celui de l'image et l'aligner rigidement avec la géométrie inférée par le réseau ; nous appelons cet alignement Reconstruction Augmentée par Récupération (Retrieval-Augmented Reconstruction, RAR). Les expériences montrent que MCC-HO atteint des performances de pointe sur des ensembles de données de laboratoire et d'Internet, et nous démontrons comment RAR peut être utilisé pour obtenir automatiquement des étiquettes 3D pour des images en conditions réelles d'interactions main-objet.
English
Objects manipulated by the hand (i.e., manipulanda) are particularly
challenging to reconstruct from in-the-wild RGB images or videos. Not only does
the hand occlude much of the object, but also the object is often only visible
in a small number of image pixels. At the same time, two strong anchors emerge
in this setting: (1) estimated 3D hands help disambiguate the location and
scale of the object, and (2) the set of manipulanda is small relative to all
possible objects. With these insights in mind, we present a scalable paradigm
for handheld object reconstruction that builds on recent breakthroughs in large
language/vision models and 3D object datasets. Our model, MCC-Hand-Object
(MCC-HO), jointly reconstructs hand and object geometry given a single RGB
image and inferred 3D hand as inputs. Subsequently, we use GPT-4(V) to retrieve
a 3D object model that matches the object in the image and rigidly align the
model to the network-inferred geometry; we call this alignment
Retrieval-Augmented Reconstruction (RAR). Experiments demonstrate that MCC-HO
achieves state-of-the-art performance on lab and Internet datasets, and we show
how RAR can be used to automatically obtain 3D labels for in-the-wild images of
hand-object interactions.Summary
AI-Generated Summary