ChatPaper.aiChatPaper

손에 쥔 물체의 3D 재구성

Reconstructing Hand-Held Objects in 3D

April 9, 2024
저자: Jane Wu, Georgios Pavlakos, Georgia Gkioxari, Jitendra Malik
cs.AI

초록

손으로 조작되는 물체(즉, 조작 대상)는 실생활 RGB 이미지나 비디오에서 재구성하기에 특히 어려운 과제입니다. 손이 물체의 대부분을 가리는 데다가, 물체가 종종 소수의 이미지 픽셀에서만 보이기 때문입니다. 동시에, 이러한 설정에서 두 가지 강력한 기준점이 나타납니다: (1) 추정된 3D 손은 물체의 위치와 크기를 명확히 하는 데 도움을 주며, (2) 조작 대상의 집합은 모든 가능한 물체에 비해 상대적으로 작습니다. 이러한 통찰을 바탕으로, 우리는 대규모 언어/비전 모델과 3D 물체 데이터셋의 최근 돌파구를 기반으로 한 손에 들린 물체 재구성을 위한 확장 가능한 패러다임을 제시합니다. 우리의 모델인 MCC-Hand-Object(MCC-HO)는 단일 RGB 이미지와 추론된 3D 손을 입력으로 받아 손과 물체의 형상을 함께 재구성합니다. 이후, GPT-4(V)를 사용하여 이미지 속 물체와 일치하는 3D 물체 모델을 검색하고, 이 모델을 네트워크가 추론한 형상에 강체 정렬(rigid alignment)합니다. 우리는 이러한 정렬을 검색 강화 재구성(Retrieval-Augmented Reconstruction, RAR)이라고 부릅니다. 실험 결과, MCC-HO는 실험실 및 인터넷 데이터셋에서 최첨단 성능을 달성했으며, RAR이 손-물체 상호작용을 담은 실생활 이미지에 대해 자동으로 3D 레이블을 얻는 데 어떻게 사용될 수 있는지 보여줍니다.
English
Objects manipulated by the hand (i.e., manipulanda) are particularly challenging to reconstruct from in-the-wild RGB images or videos. Not only does the hand occlude much of the object, but also the object is often only visible in a small number of image pixels. At the same time, two strong anchors emerge in this setting: (1) estimated 3D hands help disambiguate the location and scale of the object, and (2) the set of manipulanda is small relative to all possible objects. With these insights in mind, we present a scalable paradigm for handheld object reconstruction that builds on recent breakthroughs in large language/vision models and 3D object datasets. Our model, MCC-Hand-Object (MCC-HO), jointly reconstructs hand and object geometry given a single RGB image and inferred 3D hand as inputs. Subsequently, we use GPT-4(V) to retrieve a 3D object model that matches the object in the image and rigidly align the model to the network-inferred geometry; we call this alignment Retrieval-Augmented Reconstruction (RAR). Experiments demonstrate that MCC-HO achieves state-of-the-art performance on lab and Internet datasets, and we show how RAR can be used to automatically obtain 3D labels for in-the-wild images of hand-object interactions.

Summary

AI-Generated Summary

PDF60December 15, 2024