DECO: Dichte Schätzung von 3D Mensch-Umgebung-Kontakt in natürlichen Umgebungen
DECO: Dense Estimation of 3D Human-Scene Contact In The Wild
September 26, 2023
Autoren: Shashank Tripathi, Agniv Chatterjee, Jean-Claude Passy, Hongwei Yi, Dimitrios Tzionas, Michael J. Black
cs.AI
Zusammenfassung
Das Verständnis, wie Menschen physischen Kontakt nutzen, um mit der Welt zu interagieren, ist entscheidend für die Entwicklung menschenzentrierter künstlicher Intelligenz. Während die Inferenz von 3D-Kontakt für die Modellierung realistischer und physikalisch plausibler Mensch-Objekt-Interaktionen von zentraler Bedeutung ist, konzentrieren sich bestehende Methoden entweder auf 2D, betrachten Gelenke anstelle der Körperoberfläche, verwenden grobe 3D-Körperregionen oder generalisieren nicht auf Bilder aus der realen Welt. Im Gegensatz dazu konzentrieren wir uns auf die Inferenz von dichtem 3D-Kontakt zwischen der gesamten Körperoberfläche und Objekten in beliebigen Bildern. Um dies zu erreichen, sammeln wir zunächst DAMON, einen neuen Datensatz, der dichte Kontaktannotationen auf Vertex-Ebene enthält, die mit RGB-Bildern komplexer Mensch-Objekt- und Mensch-Szene-Kontakte gepaart sind. Zweitens trainieren wir DECO, einen neuartigen 3D-Kontaktdetektor, der sowohl körperteilgesteuerte als auch szenenkontextgesteuerte Aufmerksamkeit verwendet, um Kontakte auf Vertex-Ebene auf dem SMPL-Körper zu schätzen. DECO basiert auf der Erkenntnis, dass menschliche Beobachter Kontakt erkennen, indem sie über die beteiligten Körperteile, ihre Nähe zu Szenenobjekten und den umgebenden Szenenkontext nachdenken. Wir führen umfangreiche Evaluierungen unseres Detektors auf DAMON sowie auf den Datensätzen RICH und BEHAVE durch. Wir übertreffen die bestehenden State-of-the-Art-Methoden auf allen Benchmarks deutlich. Wir zeigen auch qualitativ, dass DECO gut auf diverse und herausfordernde reale Mensch-Interaktionen in natürlichen Bildern generalisiert. Der Code, die Daten und die Modelle sind unter https://deco.is.tue.mpg.de verfügbar.
English
Understanding how humans use physical contact to interact with the world is
key to enabling human-centric artificial intelligence. While inferring 3D
contact is crucial for modeling realistic and physically-plausible human-object
interactions, existing methods either focus on 2D, consider body joints rather
than the surface, use coarse 3D body regions, or do not generalize to
in-the-wild images. In contrast, we focus on inferring dense, 3D contact
between the full body surface and objects in arbitrary images. To achieve this,
we first collect DAMON, a new dataset containing dense vertex-level contact
annotations paired with RGB images containing complex human-object and
human-scene contact. Second, we train DECO, a novel 3D contact detector that
uses both body-part-driven and scene-context-driven attention to estimate
vertex-level contact on the SMPL body. DECO builds on the insight that human
observers recognize contact by reasoning about the contacting body parts, their
proximity to scene objects, and the surrounding scene context. We perform
extensive evaluations of our detector on DAMON as well as on the RICH and
BEHAVE datasets. We significantly outperform existing SOTA methods across all
benchmarks. We also show qualitatively that DECO generalizes well to diverse
and challenging real-world human interactions in natural images. The code,
data, and models are available at https://deco.is.tue.mpg.de.