ChatPaper.aiChatPaper

DECO: Stima Densa del Contatto 3D Uomo-Scena in Ambiente Reale

DECO: Dense Estimation of 3D Human-Scene Contact In The Wild

September 26, 2023
Autori: Shashank Tripathi, Agniv Chatterjee, Jean-Claude Passy, Hongwei Yi, Dimitrios Tzionas, Michael J. Black
cs.AI

Abstract

Comprendere come gli esseri umani utilizzano il contatto fisico per interagire con il mondo è fondamentale per abilitare un'intelligenza artificiale centrata sull'uomo. Sebbene l'inferenza del contatto 3D sia cruciale per modellare interazioni uomo-oggetto realistiche e fisicamente plausibili, i metodi esistenti si concentrano principalmente su rappresentazioni 2D, considerano le articolazioni del corpo anziché la superficie, utilizzano regioni corporee 3D approssimative o non si generalizzano bene a immagini in contesti reali. Al contrario, il nostro lavoro si focalizza sull'inferenza di un contatto 3D denso tra l'intera superficie del corpo e gli oggetti in immagini arbitrarie. Per raggiungere questo obiettivo, abbiamo prima raccolto DAMON, un nuovo dataset contenente annotazioni dense di contatto a livello di vertice, accoppiate a immagini RGB che includono complessi contatti uomo-oggetto e uomo-scena. In secondo luogo, abbiamo addestrato DECO, un innovativo rilevatore di contatto 3D che utilizza un'attenzione guidata sia dalle parti del corpo che dal contesto della scena per stimare il contatto a livello di vertice sul corpo SMPL. DECO si basa sull'intuizione che gli osservatori umani riconoscono il contatto ragionando sulle parti del corpo coinvolte, sulla loro prossimità agli oggetti della scena e sul contesto circostante. Abbiamo condotto valutazioni estensive del nostro rilevatore su DAMON, nonché sui dataset RICH e BEHAVE, superando significativamente i metodi SOTA esistenti su tutti i benchmark. Inoltre, mostriamo qualitativamente che DECO si generalizza bene a interazioni umane reali, diverse e impegnative, in immagini naturali. Il codice, i dati e i modelli sono disponibili all'indirizzo https://deco.is.tue.mpg.de.
English
Understanding how humans use physical contact to interact with the world is key to enabling human-centric artificial intelligence. While inferring 3D contact is crucial for modeling realistic and physically-plausible human-object interactions, existing methods either focus on 2D, consider body joints rather than the surface, use coarse 3D body regions, or do not generalize to in-the-wild images. In contrast, we focus on inferring dense, 3D contact between the full body surface and objects in arbitrary images. To achieve this, we first collect DAMON, a new dataset containing dense vertex-level contact annotations paired with RGB images containing complex human-object and human-scene contact. Second, we train DECO, a novel 3D contact detector that uses both body-part-driven and scene-context-driven attention to estimate vertex-level contact on the SMPL body. DECO builds on the insight that human observers recognize contact by reasoning about the contacting body parts, their proximity to scene objects, and the surrounding scene context. We perform extensive evaluations of our detector on DAMON as well as on the RICH and BEHAVE datasets. We significantly outperform existing SOTA methods across all benchmarks. We also show qualitatively that DECO generalizes well to diverse and challenging real-world human interactions in natural images. The code, data, and models are available at https://deco.is.tue.mpg.de.
PDF71February 8, 2026