InteractVLM : Raisonnement sur les interactions 3D à partir de modèles fondamentaux 2D
InteractVLM: 3D Interaction Reasoning from 2D Foundational Models
April 7, 2025
Auteurs: Sai Kumar Dwivedi, Dimitrije Antić, Shashank Tripathi, Omid Taheri, Cordelia Schmid, Michael J. Black, Dimitrios Tzionas
cs.AI
Résumé
Nous présentons InteractVLM, une méthode novatrice pour estimer les points de contact 3D sur les corps humains et les objets à partir d'images uniques en conditions réelles, permettant une reconstruction précise des interactions humain-objet en 3D. Ce défi est complexe en raison des occlusions, des ambiguïtés de profondeur et de la grande variété des formes d'objets. Les méthodes existantes s'appuient sur des annotations de contact 3D collectées via des systèmes de capture de mouvement coûteux ou un étiquetage manuel fastidieux, limitant ainsi leur évolutivité et leur généralisation. Pour surmonter cela, InteractVLM exploite les vastes connaissances visuelles des grands modèles vision-langage (VLMs), affinés avec des données de contact 3D limitées. Cependant, appliquer directement ces modèles n'est pas trivial, car ils raisonnent uniquement en 2D, alors que le contact humain-objet est intrinsèquement 3D. Ainsi, nous introduisons un module innovant Render-Localize-Lift qui : (1) intègre les surfaces 3D du corps et des objets dans l'espace 2D via un rendu multi-vues, (2) entraîne un nouveau modèle de localisation multi-vues (MV-Loc) pour inférer les contacts en 2D, et (3) projette ces contacts en 3D. De plus, nous proposons une nouvelle tâche appelée estimation sémantique du contact humain, où les prédictions de contact humain sont explicitement conditionnées par la sémantique des objets, permettant une modélisation plus riche des interactions. InteractVLM surpasse les travaux existants en matière d'estimation de contact et facilite également la reconstruction 3D à partir d'une image en conditions réelles. Le code et les modèles sont disponibles à l'adresse https://interactvlm.is.tue.mpg.de.
English
We introduce InteractVLM, a novel method to estimate 3D contact points on
human bodies and objects from single in-the-wild images, enabling accurate
human-object joint reconstruction in 3D. This is challenging due to occlusions,
depth ambiguities, and widely varying object shapes. Existing methods rely on
3D contact annotations collected via expensive motion-capture systems or
tedious manual labeling, limiting scalability and generalization. To overcome
this, InteractVLM harnesses the broad visual knowledge of large Vision-Language
Models (VLMs), fine-tuned with limited 3D contact data. However, directly
applying these models is non-trivial, as they reason only in 2D, while
human-object contact is inherently 3D. Thus we introduce a novel
Render-Localize-Lift module that: (1) embeds 3D body and object surfaces in 2D
space via multi-view rendering, (2) trains a novel multi-view localization
model (MV-Loc) to infer contacts in 2D, and (3) lifts these to 3D.
Additionally, we propose a new task called Semantic Human Contact estimation,
where human contact predictions are conditioned explicitly on object semantics,
enabling richer interaction modeling. InteractVLM outperforms existing work on
contact estimation and also facilitates 3D reconstruction from an in-the wild
image. Code and models are available at https://interactvlm.is.tue.mpg.de.Summary
AI-Generated Summary