DECO: 야외 환경에서의 3D 인간-장면 접촉 밀집 추정
DECO: Dense Estimation of 3D Human-Scene Contact In The Wild
September 26, 2023
저자: Shashank Tripathi, Agniv Chatterjee, Jean-Claude Passy, Hongwei Yi, Dimitrios Tzionas, Michael J. Black
cs.AI
초록
인간이 물리적 접촉을 통해 세상과 상호작용하는 방식을 이해하는 것은 인간 중심의 인공지능을 구현하는 데 핵심적입니다. 사실적이고 물리적으로 타당한 인간-물체 상호작용을 모델링하기 위해 3D 접촉을 추론하는 것은 중요하지만, 기존 방법들은 2D에 초점을 맞추거나, 표면 대신 관절을 고려하거나, 거친 3D 신체 영역을 사용하거나, 실제 환경의 이미지에 일반화되지 못하는 한계가 있습니다. 이와 대조적으로, 우리는 임의의 이미지에서 전체 신체 표면과 물체 간의 조밀한 3D 접촉을 추론하는 데 초점을 맞춥니다. 이를 위해 먼저, 복잡한 인간-물체 및 인간-장면 접촉을 포함하는 RGB 이미지와 함께 조밀한 정점 수준의 접촉 주석을 포함한 새로운 데이터셋인 DAMON을 수집합니다. 둘째, SMPL 신체에서 정점 수준의 접촉을 추정하기 위해 신체 부위 기반 및 장면 맥락 기반 주의 메커니즘을 모두 사용하는 새로운 3D 접촉 탐지기인 DECO를 학습합니다. DECO는 인간 관찰자가 접촉을 인식할 때 접촉하는 신체 부위, 장면 물체와의 근접성, 주변 장면 맥락에 대해 추론한다는 통찰에 기반합니다. 우리는 DAMON뿐만 아니라 RICH 및 BEHAVE 데이터셋에서도 탐지기를 광범위하게 평가합니다. 모든 벤치마크에서 기존 SOTA 방법을 크게 능가하는 성능을 보여줍니다. 또한 DECO가 자연 이미지에서 다양한 도전적인 실제 인간 상호작용에 잘 일반화됨을 정성적으로 입증합니다. 코드, 데이터 및 모델은 https://deco.is.tue.mpg.de에서 확인할 수 있습니다.
English
Understanding how humans use physical contact to interact with the world is
key to enabling human-centric artificial intelligence. While inferring 3D
contact is crucial for modeling realistic and physically-plausible human-object
interactions, existing methods either focus on 2D, consider body joints rather
than the surface, use coarse 3D body regions, or do not generalize to
in-the-wild images. In contrast, we focus on inferring dense, 3D contact
between the full body surface and objects in arbitrary images. To achieve this,
we first collect DAMON, a new dataset containing dense vertex-level contact
annotations paired with RGB images containing complex human-object and
human-scene contact. Second, we train DECO, a novel 3D contact detector that
uses both body-part-driven and scene-context-driven attention to estimate
vertex-level contact on the SMPL body. DECO builds on the insight that human
observers recognize contact by reasoning about the contacting body parts, their
proximity to scene objects, and the surrounding scene context. We perform
extensive evaluations of our detector on DAMON as well as on the RICH and
BEHAVE datasets. We significantly outperform existing SOTA methods across all
benchmarks. We also show qualitatively that DECO generalizes well to diverse
and challenging real-world human interactions in natural images. The code,
data, and models are available at https://deco.is.tue.mpg.de.