DECO: Estimación Densa del Contacto 3D entre Humanos y Escenas en Entornos Naturales
DECO: Dense Estimation of 3D Human-Scene Contact In The Wild
September 26, 2023
Autores: Shashank Tripathi, Agniv Chatterjee, Jean-Claude Passy, Hongwei Yi, Dimitrios Tzionas, Michael J. Black
cs.AI
Resumen
Comprender cómo los humanos utilizan el contacto físico para interactuar con el mundo es clave para habilitar una inteligencia artificial centrada en el ser humano. Si bien inferir el contacto en 3D es crucial para modelar interacciones humano-objeto realistas y físicamente plausibles, los métodos existentes se centran en 2D, consideran articulaciones corporales en lugar de la superficie, utilizan regiones corporales 3D aproximadas o no generalizan a imágenes en entornos no controlados. En contraste, nos enfocamos en inferir el contacto denso en 3D entre toda la superficie corporal y objetos en imágenes arbitrarias. Para lograrlo, primero recopilamos DAMON, un nuevo conjunto de datos que contiene anotaciones densas de contacto a nivel de vértice, emparejadas con imágenes RGB que incluyen interacciones complejas humano-objeto y humano-escena. En segundo lugar, entrenamos DECO, un novedoso detector de contacto 3D que utiliza atención tanto basada en partes del cuerpo como en el contexto de la escena para estimar el contacto a nivel de vértice en el cuerpo SMPL. DECO se basa en la idea de que los observadores humanos reconocen el contacto razonando sobre las partes del cuerpo que entran en contacto, su proximidad a los objetos de la escena y el contexto circundante. Realizamos evaluaciones exhaustivas de nuestro detector en DAMON, así como en los conjuntos de datos RICH y BEHAVE. Superamos significativamente a los métodos SOTA existentes en todos los benchmarks. También mostramos cualitativamente que DECO generaliza bien a diversas y desafiantes interacciones humanas del mundo real en imágenes naturales. El código, los datos y los modelos están disponibles en https://deco.is.tue.mpg.de.
English
Understanding how humans use physical contact to interact with the world is
key to enabling human-centric artificial intelligence. While inferring 3D
contact is crucial for modeling realistic and physically-plausible human-object
interactions, existing methods either focus on 2D, consider body joints rather
than the surface, use coarse 3D body regions, or do not generalize to
in-the-wild images. In contrast, we focus on inferring dense, 3D contact
between the full body surface and objects in arbitrary images. To achieve this,
we first collect DAMON, a new dataset containing dense vertex-level contact
annotations paired with RGB images containing complex human-object and
human-scene contact. Second, we train DECO, a novel 3D contact detector that
uses both body-part-driven and scene-context-driven attention to estimate
vertex-level contact on the SMPL body. DECO builds on the insight that human
observers recognize contact by reasoning about the contacting body parts, their
proximity to scene objects, and the surrounding scene context. We perform
extensive evaluations of our detector on DAMON as well as on the RICH and
BEHAVE datasets. We significantly outperform existing SOTA methods across all
benchmarks. We also show qualitatively that DECO generalizes well to diverse
and challenging real-world human interactions in natural images. The code,
data, and models are available at https://deco.is.tue.mpg.de.