Het reconstrueren van handvastgehouden objecten in 3D
Reconstructing Hand-Held Objects in 3D
April 9, 2024
Auteurs: Jane Wu, Georgios Pavlakos, Georgia Gkioxari, Jitendra Malik
cs.AI
Samenvatting
Objecten die door de hand worden gemanipuleerd (d.w.z. manipulanda) zijn bijzonder uitdagend om te reconstrueren uit RGB-afbeeldingen of video's in natuurlijke omgevingen. Niet alleen bedekt de hand een groot deel van het object, maar het object is vaak ook slechts zichtbaar in een klein aantal beeldpixels. Tegelijkertijd ontstaan er in deze setting twee sterke ankerpunten: (1) geschatte 3D-handen helpen om de locatie en schaal van het object te verduidelijken, en (2) de set van manipulanda is klein in verhouding tot alle mogelijke objecten. Met deze inzichten in gedachten presenteren we een schaalbaar paradigma voor de reconstructie van handvastgehouden objecten, dat voortbouwt op recente doorbraken in grote taal/visie-modellen en 3D-objectdatasets. Ons model, MCC-Hand-Object (MCC-HO), reconstrueert gezamenlijk de geometrie van de hand en het object op basis van een enkele RGB-afbeelding en een afgeleide 3D-hand als invoer. Vervolgens gebruiken we GPT-4(V) om een 3D-objectmodel op te halen dat overeenkomt met het object in de afbeelding en dit model rigide uit te lijnen met de door het netwerk afgeleide geometrie; we noemen deze uitlijning Retrieval-Augmented Reconstruction (RAR). Experimenten tonen aan dat MCC-HO state-of-the-art prestaties behaalt op lab- en internetdatasets, en we laten zien hoe RAR kan worden gebruikt om automatisch 3D-labels te verkrijgen voor afbeeldingen van hand-objectinteracties in natuurlijke omgevingen.
English
Objects manipulated by the hand (i.e., manipulanda) are particularly
challenging to reconstruct from in-the-wild RGB images or videos. Not only does
the hand occlude much of the object, but also the object is often only visible
in a small number of image pixels. At the same time, two strong anchors emerge
in this setting: (1) estimated 3D hands help disambiguate the location and
scale of the object, and (2) the set of manipulanda is small relative to all
possible objects. With these insights in mind, we present a scalable paradigm
for handheld object reconstruction that builds on recent breakthroughs in large
language/vision models and 3D object datasets. Our model, MCC-Hand-Object
(MCC-HO), jointly reconstructs hand and object geometry given a single RGB
image and inferred 3D hand as inputs. Subsequently, we use GPT-4(V) to retrieve
a 3D object model that matches the object in the image and rigidly align the
model to the network-inferred geometry; we call this alignment
Retrieval-Augmented Reconstruction (RAR). Experiments demonstrate that MCC-HO
achieves state-of-the-art performance on lab and Internet datasets, and we show
how RAR can be used to automatically obtain 3D labels for in-the-wild images of
hand-object interactions.