DECO: Estimação Densa de Contato 3D entre Humanos e Cenários em Ambientes Reais
DECO: Dense Estimation of 3D Human-Scene Contact In The Wild
September 26, 2023
Autores: Shashank Tripathi, Agniv Chatterjee, Jean-Claude Passy, Hongwei Yi, Dimitrios Tzionas, Michael J. Black
cs.AI
Resumo
Compreender como os humanos usam o contato físico para interagir com o mundo é fundamental para permitir a inteligência artificial centrada no ser humano. Embora inferir contato 3D seja crucial para modelar interações humano-objeto realistas e fisicamente plausíveis, os métodos existentes ou se concentram em 2D, consideram articulações corporais em vez da superfície, usam regiões corporais 3D grosseiras ou não generalizam para imagens do mundo real. Em contraste, nos concentramos em inferir contato 3D denso entre a superfície corporal completa e objetos em imagens arbitrárias. Para alcançar isso, primeiro coletamos DAMON, um novo conjunto de dados contendo anotações de contato denso em nível de vértice, pareadas com imagens RGB que contêm interações complexas entre humano-objeto e humano-cena. Em segundo lugar, treinamos DECO, um novo detector de contato 3D que usa atenção tanto dirigida por partes do corpo quanto por contexto de cena para estimar o contato em nível de vértice no corpo SMPL. O DECO se baseia na percepção de que os observadores humanos reconhecem o contato ao raciocinar sobre as partes do corpo em contato, sua proximidade com os objetos da cena e o contexto da cena circundante. Realizamos avaliações extensas do nosso detector no DAMON, bem como nos conjuntos de dados RICH e BEHAVE. Superamos significativamente os métodos SOTA existentes em todos os benchmarks. Também mostramos qualitativamente que o DECO generaliza bem para diversas e desafiadoras interações humanas do mundo real em imagens naturais. O código, os dados e os modelos estão disponíveis em https://deco.is.tue.mpg.de.
English
Understanding how humans use physical contact to interact with the world is
key to enabling human-centric artificial intelligence. While inferring 3D
contact is crucial for modeling realistic and physically-plausible human-object
interactions, existing methods either focus on 2D, consider body joints rather
than the surface, use coarse 3D body regions, or do not generalize to
in-the-wild images. In contrast, we focus on inferring dense, 3D contact
between the full body surface and objects in arbitrary images. To achieve this,
we first collect DAMON, a new dataset containing dense vertex-level contact
annotations paired with RGB images containing complex human-object and
human-scene contact. Second, we train DECO, a novel 3D contact detector that
uses both body-part-driven and scene-context-driven attention to estimate
vertex-level contact on the SMPL body. DECO builds on the insight that human
observers recognize contact by reasoning about the contacting body parts, their
proximity to scene objects, and the surrounding scene context. We perform
extensive evaluations of our detector on DAMON as well as on the RICH and
BEHAVE datasets. We significantly outperform existing SOTA methods across all
benchmarks. We also show qualitatively that DECO generalizes well to diverse
and challenging real-world human interactions in natural images. The code,
data, and models are available at https://deco.is.tue.mpg.de.