InteractVLM: Рассуждения о 3D-взаимодействиях на основе 2D-фундаментальных моделей
InteractVLM: 3D Interaction Reasoning from 2D Foundational Models
April 7, 2025
Авторы: Sai Kumar Dwivedi, Dimitrije Antić, Shashank Tripathi, Omid Taheri, Cordelia Schmid, Michael J. Black, Dimitrios Tzionas
cs.AI
Аннотация
Мы представляем InteractVLM — новый метод для оценки 3D точек контакта на телах людей и объектах по одиночным изображениям в естественных условиях, что позволяет точно восстанавливать совместное 3D взаимодействие человека и объекта. Эта задача является сложной из-за окклюзий, неоднозначностей глубины и широкого разнообразия форм объектов. Существующие методы полагаются на 3D аннотации контактов, собранные с помощью дорогостоящих систем захвата движения или трудоемкой ручной разметки, что ограничивает масштабируемость и обобщаемость. Чтобы преодолеть это, InteractVLM использует обширные визуальные знания крупных Vision-Language моделей (VLM), дообученных на ограниченных данных о 3D контактах. Однако прямое применение этих моделей нетривиально, так как они работают только в 2D, в то время как контакт человека и объекта по своей природе является 3D. Поэтому мы вводим новый модуль Render-Localize-Lift, который: (1) встраивает 3D поверхности тела и объекта в 2D пространство с помощью многовидового рендеринга, (2) обучает новую многовидовую модель локализации (MV-Loc) для вывода контактов в 2D и (3) поднимает их в 3D. Кроме того, мы предлагаем новую задачу под названием Semantic Human Contact estimation, где предсказания контактов человека явно зависят от семантики объектов, что позволяет более богато моделировать взаимодействия. InteractVLM превосходит существующие работы по оценке контактов и также способствует 3D реконструкции по изображению в естественных условиях. Код и модели доступны по адресу https://interactvlm.is.tue.mpg.de.
English
We introduce InteractVLM, a novel method to estimate 3D contact points on
human bodies and objects from single in-the-wild images, enabling accurate
human-object joint reconstruction in 3D. This is challenging due to occlusions,
depth ambiguities, and widely varying object shapes. Existing methods rely on
3D contact annotations collected via expensive motion-capture systems or
tedious manual labeling, limiting scalability and generalization. To overcome
this, InteractVLM harnesses the broad visual knowledge of large Vision-Language
Models (VLMs), fine-tuned with limited 3D contact data. However, directly
applying these models is non-trivial, as they reason only in 2D, while
human-object contact is inherently 3D. Thus we introduce a novel
Render-Localize-Lift module that: (1) embeds 3D body and object surfaces in 2D
space via multi-view rendering, (2) trains a novel multi-view localization
model (MV-Loc) to infer contacts in 2D, and (3) lifts these to 3D.
Additionally, we propose a new task called Semantic Human Contact estimation,
where human contact predictions are conditioned explicitly on object semantics,
enabling richer interaction modeling. InteractVLM outperforms existing work on
contact estimation and also facilitates 3D reconstruction from an in-the wild
image. Code and models are available at https://interactvlm.is.tue.mpg.de.