InteractVLM: 2D 기반 모델을 통한 3D 상호작용 추론
InteractVLM: 3D Interaction Reasoning from 2D Foundational Models
April 7, 2025
저자: Sai Kumar Dwivedi, Dimitrije Antić, Shashank Tripathi, Omid Taheri, Cordelia Schmid, Michael J. Black, Dimitrios Tzionas
cs.AI
초록
우리는 단일 야외 이미지에서 인체와 물체 간의 3D 접촉점을 추정하고, 이를 통해 정확한 3D 인간-물체 공동 재구성을 가능하게 하는 새로운 방법인 InteractVLM을 소개합니다. 이는 가려짐, 깊이 모호성, 그리고 다양한 물체 형태로 인해 어려운 과제입니다. 기존 방법들은 비용이 많이 드는 모션 캡처 시스템이나 지루한 수동 라벨링을 통해 수집된 3D 접촉 주석에 의존하여 확장성과 일반화가 제한됩니다. 이를 극복하기 위해 InteractVLM은 제한된 3D 접촉 데이터로 미세 조정된 대규모 Vision-Language 모델(VLM)의 광범위한 시각 지식을 활용합니다. 그러나 이러한 모델을 직접 적용하는 것은 간단하지 않습니다. 이 모델들은 2D에서만 추론하지만, 인간-물체 접촉은 본질적으로 3D이기 때문입니다. 따라서 우리는 새로운 Render-Localize-Lift 모듈을 도입했습니다. 이 모듈은 (1) 다중 뷰 렌더링을 통해 3D 몸체와 물체 표면을 2D 공간에 임베딩하고, (2) 새로운 다중 뷰 위치 추정 모델(MV-Loc)을 훈련시켜 2D에서 접촉을 추론하며, (3) 이를 3D로 리프트합니다. 또한, 우리는 Semantic Human Contact estimation이라는 새로운 작업을 제안합니다. 이 작업에서는 인간 접촉 예측이 물체 의미론에 명시적으로 조건화되어 더 풍부한 상호작용 모델링을 가능하게 합니다. InteractVLM은 접촉 추정에서 기존 작업을 능가하며, 야외 이미지에서의 3D 재구성도 용이하게 합니다. 코드와 모델은 https://interactvlm.is.tue.mpg.de에서 이용할 수 있습니다.
English
We introduce InteractVLM, a novel method to estimate 3D contact points on
human bodies and objects from single in-the-wild images, enabling accurate
human-object joint reconstruction in 3D. This is challenging due to occlusions,
depth ambiguities, and widely varying object shapes. Existing methods rely on
3D contact annotations collected via expensive motion-capture systems or
tedious manual labeling, limiting scalability and generalization. To overcome
this, InteractVLM harnesses the broad visual knowledge of large Vision-Language
Models (VLMs), fine-tuned with limited 3D contact data. However, directly
applying these models is non-trivial, as they reason only in 2D, while
human-object contact is inherently 3D. Thus we introduce a novel
Render-Localize-Lift module that: (1) embeds 3D body and object surfaces in 2D
space via multi-view rendering, (2) trains a novel multi-view localization
model (MV-Loc) to infer contacts in 2D, and (3) lifts these to 3D.
Additionally, we propose a new task called Semantic Human Contact estimation,
where human contact predictions are conditioned explicitly on object semantics,
enabling richer interaction modeling. InteractVLM outperforms existing work on
contact estimation and also facilitates 3D reconstruction from an in-the wild
image. Code and models are available at https://interactvlm.is.tue.mpg.de.Summary
AI-Generated Summary