DECO: Dichte Schatting van 3D Mens-Scène Contact in de Praktijk
DECO: Dense Estimation of 3D Human-Scene Contact In The Wild
September 26, 2023
Auteurs: Shashank Tripathi, Agniv Chatterjee, Jean-Claude Passy, Hongwei Yi, Dimitrios Tzionas, Michael J. Black
cs.AI
Samenvatting
Het begrijpen van hoe mensen fysiek contact gebruiken om te interageren met de wereld is essentieel voor het ontwikkelen van mensgerichte kunstmatige intelligentie. Hoewel het afleiden van 3D-contact cruciaal is voor het modelleren van realistische en fysisch plausibele mens-objectinteracties, richten bestaande methodes zich ofwel op 2D, beschouwen ze lichaamsgewrichten in plaats van het oppervlak, gebruiken ze grove 3D-lichaamsregio's, of generaliseren ze niet naar afbeeldingen uit de echte wereld. Daarentegen richten wij ons op het afleiden van dicht, 3D-contact tussen het volledige lichaamsoppervlak en objecten in willekeurige afbeeldingen. Om dit te bereiken, verzamelen we eerst DAMON, een nieuwe dataset die dichte, vertexniveau contactannotaties bevat, gekoppeld aan RGB-afbeeldingen met complexe mens-object- en mens-scènecontacten. Ten tweede trainen we DECO, een nieuwe 3D-contactdetector die zowel lichaamsdeelgedreven als scènecontextgedreven aandacht gebruikt om vertexniveau contact op het SMPL-lichaam te schatten. DECO bouwt voort op het inzicht dat menselijke waarnemers contact herkennen door te redeneren over de contactmakende lichaamsdelen, hun nabijheid tot scèneobjecten en de omringende scènecontext. We voeren uitgebreide evaluaties uit van onze detector op DAMON, evenals op de RICH- en BEHAVE-datasets. We overtreffen aanzienlijk de bestaande state-of-the-art methodes op alle benchmarks. We tonen ook kwalitatief aan dat DECO goed generaliseert naar diverse en uitdagende real-world menselijke interacties in natuurlijke afbeeldingen. De code, data en modellen zijn beschikbaar op https://deco.is.tue.mpg.de.
English
Understanding how humans use physical contact to interact with the world is
key to enabling human-centric artificial intelligence. While inferring 3D
contact is crucial for modeling realistic and physically-plausible human-object
interactions, existing methods either focus on 2D, consider body joints rather
than the surface, use coarse 3D body regions, or do not generalize to
in-the-wild images. In contrast, we focus on inferring dense, 3D contact
between the full body surface and objects in arbitrary images. To achieve this,
we first collect DAMON, a new dataset containing dense vertex-level contact
annotations paired with RGB images containing complex human-object and
human-scene contact. Second, we train DECO, a novel 3D contact detector that
uses both body-part-driven and scene-context-driven attention to estimate
vertex-level contact on the SMPL body. DECO builds on the insight that human
observers recognize contact by reasoning about the contacting body parts, their
proximity to scene objects, and the surrounding scene context. We perform
extensive evaluations of our detector on DAMON as well as on the RICH and
BEHAVE datasets. We significantly outperform existing SOTA methods across all
benchmarks. We also show qualitatively that DECO generalizes well to diverse
and challenging real-world human interactions in natural images. The code,
data, and models are available at https://deco.is.tue.mpg.de.