InteractVLM: 2D基盤モデルからの3Dインタラクション推論
InteractVLM: 3D Interaction Reasoning from 2D Foundational Models
April 7, 2025
著者: Sai Kumar Dwivedi, Dimitrije Antić, Shashank Tripathi, Omid Taheri, Cordelia Schmid, Michael J. Black, Dimitrios Tzionas
cs.AI
要旨
InteractVLMを紹介します。これは、単一の実世界画像から人体と物体の3D接触点を推定し、正確な3D人間-物体共同再構成を可能にする新しい手法です。これは、遮蔽、深度の曖昧さ、および多様な物体形状のため、非常に困難な課題です。既存の手法は、高価なモーションキャプチャシステムや手作業によるラベリングで収集された3D接触アノテーションに依存しており、スケーラビリティと汎用性が制限されています。これを克服するため、InteractVLMは大規模な視覚言語モデル(VLM)の広範な視覚知識を活用し、限られた3D接触データでファインチューニングします。しかし、これらのモデルを直接適用するのは容易ではありません。なぜなら、これらのモデルは2Dでのみ推論するのに対し、人間と物体の接触は本質的に3Dであるためです。そこで、新しいRender-Localize-Liftモジュールを導入します。このモジュールは、(1) 多視点レンダリングを通じて3Dの身体と物体表面を2D空間に埋め込み、(2) 新しい多視点位置推定モデル(MV-Loc)を訓練して2Dでの接触を推論し、(3) これらを3Dにリフトします。さらに、Semantic Human Contact estimationと呼ばれる新しいタスクを提案します。このタスクでは、人間の接触予測が物体の意味に明示的に条件付けられ、より豊富な相互作用モデリングを可能にします。InteractVLMは、接触推定において既存の研究を上回り、実世界画像からの3D再構成も容易にします。コードとモデルはhttps://interactvlm.is.tue.mpg.deで利用可能です。
English
We introduce InteractVLM, a novel method to estimate 3D contact points on
human bodies and objects from single in-the-wild images, enabling accurate
human-object joint reconstruction in 3D. This is challenging due to occlusions,
depth ambiguities, and widely varying object shapes. Existing methods rely on
3D contact annotations collected via expensive motion-capture systems or
tedious manual labeling, limiting scalability and generalization. To overcome
this, InteractVLM harnesses the broad visual knowledge of large Vision-Language
Models (VLMs), fine-tuned with limited 3D contact data. However, directly
applying these models is non-trivial, as they reason only in 2D, while
human-object contact is inherently 3D. Thus we introduce a novel
Render-Localize-Lift module that: (1) embeds 3D body and object surfaces in 2D
space via multi-view rendering, (2) trains a novel multi-view localization
model (MV-Loc) to infer contacts in 2D, and (3) lifts these to 3D.
Additionally, we propose a new task called Semantic Human Contact estimation,
where human contact predictions are conditioned explicitly on object semantics,
enabling richer interaction modeling. InteractVLM outperforms existing work on
contact estimation and also facilitates 3D reconstruction from an in-the wild
image. Code and models are available at https://interactvlm.is.tue.mpg.de.Summary
AI-Generated Summary