ChatPaper.aiChatPaper

DECO: Плотная оценка 3D-контакта человека и окружения в естественных условиях

DECO: Dense Estimation of 3D Human-Scene Contact In The Wild

September 26, 2023
Авторы: Shashank Tripathi, Agniv Chatterjee, Jean-Claude Passy, Hongwei Yi, Dimitrios Tzionas, Michael J. Black
cs.AI

Аннотация

Понимание того, как люди используют физический контакт для взаимодействия с миром, является ключевым для создания ориентированного на человека искусственного интеллекта. Хотя вывод трехмерного контакта крайне важен для моделирования реалистичных и физически правдоподобных взаимодействий человека с объектами, существующие методы либо сосредоточены на двумерных данных, рассматривают суставы тела вместо поверхности, используют грубые трехмерные области тела или не обобщаются на изображения из реального мира. В отличие от них, мы сосредоточены на выводе плотного трехмерного контакта между всей поверхностью тела и объектами на произвольных изображениях. Для достижения этой цели мы сначала собираем DAMON — новый набор данных, содержащий плотные аннотации контакта на уровне вершин, сопоставленные с RGB-изображениями, включающими сложные взаимодействия человека с объектами и сценой. Во-вторых, мы обучаем DECO — новый детектор трехмерного контакта, который использует внимание, управляемое частями тела и контекстом сцены, для оценки контакта на уровне вершин модели SMPL. DECO основывается на идее, что человеческие наблюдатели распознают контакт, анализируя контактирующие части тела, их близость к объектам сцены и окружающий контекст. Мы проводим обширные оценки нашего детектора на DAMON, а также на наборах данных RICH и BEHAVE. Мы значительно превосходим существующие методы SOTA на всех тестах. Мы также качественно показываем, что DECO хорошо обобщается на разнообразные и сложные взаимодействия людей в реальных изображениях. Код, данные и модели доступны по адресу https://deco.is.tue.mpg.de.
English
Understanding how humans use physical contact to interact with the world is key to enabling human-centric artificial intelligence. While inferring 3D contact is crucial for modeling realistic and physically-plausible human-object interactions, existing methods either focus on 2D, consider body joints rather than the surface, use coarse 3D body regions, or do not generalize to in-the-wild images. In contrast, we focus on inferring dense, 3D contact between the full body surface and objects in arbitrary images. To achieve this, we first collect DAMON, a new dataset containing dense vertex-level contact annotations paired with RGB images containing complex human-object and human-scene contact. Second, we train DECO, a novel 3D contact detector that uses both body-part-driven and scene-context-driven attention to estimate vertex-level contact on the SMPL body. DECO builds on the insight that human observers recognize contact by reasoning about the contacting body parts, their proximity to scene objects, and the surrounding scene context. We perform extensive evaluations of our detector on DAMON as well as on the RICH and BEHAVE datasets. We significantly outperform existing SOTA methods across all benchmarks. We also show qualitatively that DECO generalizes well to diverse and challenging real-world human interactions in natural images. The code, data, and models are available at https://deco.is.tue.mpg.de.
PDF71December 15, 2024