DECO:実世界における3D人間-シーン接触の高密度推定
DECO: Dense Estimation of 3D Human-Scene Contact In The Wild
September 26, 2023
著者: Shashank Tripathi, Agniv Chatterjee, Jean-Claude Passy, Hongwei Yi, Dimitrios Tzionas, Michael J. Black
cs.AI
要旨
人間が物理的な接触をどのように用いて世界と相互作用するかを理解することは、人間中心の人工知能を実現するための鍵です。3D接触を推論することは、現実的で物理的に妥当な人間と物体の相互作用をモデル化するために重要ですが、既存の手法は2Dに焦点を当てるか、表面ではなく関節を考慮するか、粗い3D身体領域を使用するか、あるいは実世界の画像に一般化できません。これに対して、私たちは任意の画像における全身表面と物体との密な3D接触を推論することに焦点を当てています。これを実現するために、まず、複雑な人間と物体および人間とシーンの接触を含むRGB画像と、密な頂点レベルの接触アノテーションをペアにした新しいデータセットDAMONを収集します。次に、SMPL身体上の頂点レベル接触を推定するために、身体部位駆動とシーンコンテキスト駆動の両方の注意を使用する新しい3D接触検出器DECOを訓練します。DECOは、人間の観察者が接触を認識する際に、接触する身体部位、シーン物体への近接性、および周囲のシーンコンテキストを推論するという洞察に基づいています。私たちは、DAMONだけでなくRICHおよびBEHAVEデータセットにおいても検出器の広範な評価を行います。すべてのベンチマークにおいて、既存のSOTA手法を大幅に上回る結果を示します。また、DECOが自然画像における多様で挑戦的な実世界の人間の相互作用にうまく一般化することを定性的に示します。コード、データ、およびモデルはhttps://deco.is.tue.mpg.deで利用可能です。
English
Understanding how humans use physical contact to interact with the world is
key to enabling human-centric artificial intelligence. While inferring 3D
contact is crucial for modeling realistic and physically-plausible human-object
interactions, existing methods either focus on 2D, consider body joints rather
than the surface, use coarse 3D body regions, or do not generalize to
in-the-wild images. In contrast, we focus on inferring dense, 3D contact
between the full body surface and objects in arbitrary images. To achieve this,
we first collect DAMON, a new dataset containing dense vertex-level contact
annotations paired with RGB images containing complex human-object and
human-scene contact. Second, we train DECO, a novel 3D contact detector that
uses both body-part-driven and scene-context-driven attention to estimate
vertex-level contact on the SMPL body. DECO builds on the insight that human
observers recognize contact by reasoning about the contacting body parts, their
proximity to scene objects, and the surrounding scene context. We perform
extensive evaluations of our detector on DAMON as well as on the RICH and
BEHAVE datasets. We significantly outperform existing SOTA methods across all
benchmarks. We also show qualitatively that DECO generalizes well to diverse
and challenging real-world human interactions in natural images. The code,
data, and models are available at https://deco.is.tue.mpg.de.