ChatPaper.aiChatPaper

DECO : Estimation dense des contacts 3D entre humains et scènes en environnement naturel

DECO: Dense Estimation of 3D Human-Scene Contact In The Wild

September 26, 2023
Auteurs: Shashank Tripathi, Agniv Chatterjee, Jean-Claude Passy, Hongwei Yi, Dimitrios Tzionas, Michael J. Black
cs.AI

Résumé

Comprendre comment les humains utilisent le contact physique pour interagir avec le monde est essentiel pour développer une intelligence artificielle centrée sur l'humain. Bien que l'inférence de contacts 3D soit cruciale pour modéliser des interactions humain-objet réalistes et physiquement plausibles, les méthodes existantes se concentrent soit sur des données 2D, considèrent les articulations du corps plutôt que la surface, utilisent des régions corporelles 3D grossières, ou ne généralisent pas aux images en conditions réelles. En revanche, nous nous concentrons sur l'inférence de contacts 3D denses entre la surface complète du corps et les objets dans des images arbitraires. Pour y parvenir, nous collectons d'abord DAMON, un nouveau jeu de données contenant des annotations de contacts denses au niveau des sommets, associées à des images RGB présentant des contacts complexes humain-objet et humain-scène. Ensuite, nous entraînons DECO, un nouveau détecteur de contacts 3D qui utilise à la fois une attention guidée par les parties du corps et par le contexte de la scène pour estimer les contacts au niveau des sommets sur le corps SMPL. DECO s'appuie sur l'idée que les observateurs humains reconnaissent les contacts en raisonnant sur les parties du corps en contact, leur proximité avec les objets de la scène et le contexte environnant. Nous réalisons des évaluations approfondies de notre détecteur sur DAMON ainsi que sur les jeux de données RICH et BEHAVE. Nous surpassons significativement les méthodes de pointe existantes sur tous les benchmarks. Nous montrons également de manière qualitative que DECO généralise bien à des interactions humaines diverses et complexes dans des images naturelles. Le code, les données et les modèles sont disponibles à l'adresse https://deco.is.tue.mpg.de.
English
Understanding how humans use physical contact to interact with the world is key to enabling human-centric artificial intelligence. While inferring 3D contact is crucial for modeling realistic and physically-plausible human-object interactions, existing methods either focus on 2D, consider body joints rather than the surface, use coarse 3D body regions, or do not generalize to in-the-wild images. In contrast, we focus on inferring dense, 3D contact between the full body surface and objects in arbitrary images. To achieve this, we first collect DAMON, a new dataset containing dense vertex-level contact annotations paired with RGB images containing complex human-object and human-scene contact. Second, we train DECO, a novel 3D contact detector that uses both body-part-driven and scene-context-driven attention to estimate vertex-level contact on the SMPL body. DECO builds on the insight that human observers recognize contact by reasoning about the contacting body parts, their proximity to scene objects, and the surrounding scene context. We perform extensive evaluations of our detector on DAMON as well as on the RICH and BEHAVE datasets. We significantly outperform existing SOTA methods across all benchmarks. We also show qualitatively that DECO generalizes well to diverse and challenging real-world human interactions in natural images. The code, data, and models are available at https://deco.is.tue.mpg.de.
PDF71December 15, 2024