단일 이미지에서 3D 객체 상호작용 이해하기
Understanding 3D Object Interaction from a Single Image
May 16, 2023
저자: Shengyi Qian, David F. Fouhey
cs.AI
초록
인간은 단일 이미지를 보고 상호작용이 가능한 여러 잠재적 객체를 쉽게 이해할 수 있습니다. 우리는 이러한 능력을 활용하여 세상과의 상호작용을 계획하고, 실제 상호작용 없이도 새로운 객체를 빠르게 이해합니다. 본 논문에서는 기계에 유사한 능력을 부여하여 지능형 에이전트가 3D 장면을 더 잘 탐색하거나 객체를 조작할 수 있도록 하고자 합니다. 우리의 접근 방식은 객체의 3D 위치, 물리적 속성 및 어포던스(affordance)를 예측하는 트랜스포머 기반 모델입니다. 이 모델을 학습하고 검증하기 위해 인터넷 동영상, 에고센트릭(egocentric) 동영상 및 실내 이미지로 구성된 데이터셋을 수집했습니다. 우리의 모델은 해당 데이터에서 강력한 성능을 보이며, 로보틱스 데이터에도 잘 일반화됩니다.
English
Humans can easily understand a single image as depicting multiple potential
objects permitting interaction. We use this skill to plan our interactions with
the world and accelerate understanding new objects without engaging in
interaction. In this paper, we would like to endow machines with the similar
ability, so that intelligent agents can better explore the 3D scene or
manipulate objects. Our approach is a transformer-based model that predicts the
3D location, physical properties and affordance of objects. To power this
model, we collect a dataset with Internet videos, egocentric videos and indoor
images to train and validate our approach. Our model yields strong performance
on our data, and generalizes well to robotics data.