Восстановление трехмерных моделей ручных объектов
Reconstructing Hand-Held Objects in 3D
April 9, 2024
Авторы: Jane Wu, Georgios Pavlakos, Georgia Gkioxari, Jitendra Malik
cs.AI
Аннотация
Объекты, которые манипулируются рукой (т.е. манипулянды), особенно сложно восстановить из естественных RGB изображений или видео. Не только рука частично закрывает объект, но и сам объект часто виден только на небольшом количестве пикселей изображения. В то же время в этой ситуации появляются две сильные опоры: (1) оцененные трехмерные руки помогают разъяснить местоположение и масштаб объекта, и (2) набор манипулянд относительно небольшой по сравнению со всеми возможными объектами. Исходя из этих идей, мы представляем масштабируемую парадигму для восстановления объектов, удерживаемых в руке, которая основана на последних достижениях в области крупных моделей языка/видения и наборов данных трехмерных объектов. Наша модель, MCC-Hand-Object (MCC-HO), совместно восстанавливает геометрию руки и объекта на основе одиночного RGB изображения и выведенных трехмерных рук в качестве входных данных. Затем мы используем GPT-4(V) для извлечения трехмерной модели объекта, соответствующей объекту на изображении, и жестко выравниваем модель с геометрией, выведенной сетью; мы называем это выравнивание "Retrieval-Augmented Reconstruction" (RAR). Эксперименты показывают, что MCC-HO достигает передовых результатов на лабораторных и интернет-наборах данных, и мы показываем, как RAR можно использовать для автоматического получения трехмерных меток для естественных изображений взаимодействия руки с объектом.
English
Objects manipulated by the hand (i.e., manipulanda) are particularly
challenging to reconstruct from in-the-wild RGB images or videos. Not only does
the hand occlude much of the object, but also the object is often only visible
in a small number of image pixels. At the same time, two strong anchors emerge
in this setting: (1) estimated 3D hands help disambiguate the location and
scale of the object, and (2) the set of manipulanda is small relative to all
possible objects. With these insights in mind, we present a scalable paradigm
for handheld object reconstruction that builds on recent breakthroughs in large
language/vision models and 3D object datasets. Our model, MCC-Hand-Object
(MCC-HO), jointly reconstructs hand and object geometry given a single RGB
image and inferred 3D hand as inputs. Subsequently, we use GPT-4(V) to retrieve
a 3D object model that matches the object in the image and rigidly align the
model to the network-inferred geometry; we call this alignment
Retrieval-Augmented Reconstruction (RAR). Experiments demonstrate that MCC-HO
achieves state-of-the-art performance on lab and Internet datasets, and we show
how RAR can be used to automatically obtain 3D labels for in-the-wild images of
hand-object interactions.Summary
AI-Generated Summary