ChatPaper.aiChatPaper

VLM-3R: Vision-Language-Modelle erweitert durch anweisungsausgerichtete 3D-Rekonstruktion

VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction

May 26, 2025
Autoren: Zhiwen Fan, Jian Zhang, Renjie Li, Junge Zhang, Runjin Chen, Hezhen Hu, Kevin Wang, Huaizhi Qu, Dilin Wang, Zhicheng Yan, Hongyu Xu, Justin Theiss, Tianlong Chen, Jiachen Li, Zhengzhong Tu, Zhangyang Wang, Rakesh Ranjan
cs.AI

Zusammenfassung

Die rasante Weiterentwicklung von Large Multimodal Models (LMMs) für 2D-Bilder und Videos hat die Motivation verstärkt, diese Modelle auf das Verständnis von 3D-Szenen auszuweiten, um eine menschenähnliche visuell-räumliche Intelligenz zu erreichen. Dennoch stellt das Erreichen eines tiefen räumlichen Verständnisses, das mit menschlichen Fähigkeiten vergleichbar ist, erhebliche Herausforderungen in der Modellkodierung und Datenerfassung dar. Bestehende Methoden sind häufig auf externe Tiefensensoren zur Geometrieerfassung angewiesen oder nutzen Standardalgorithmen zur Vorabkonstruktion von 3D-Karten, was ihre Skalierbarkeit einschränkt, insbesondere bei weit verbreiteten monokularen Videoeingaben und für zeitkritische Anwendungen. In dieser Arbeit stellen wir VLM-3R vor, ein einheitliches Framework für Vision-Language Models (VLMs), das 3D-Rekonstruktive Instruction Tuning integriert. VLM-3R verarbeitet monokulare Videobilder, indem es einen Geometrie-Encoder verwendet, um implizite 3D-Tokens abzuleiten, die das räumliche Verständnis repräsentieren. Durch die Nutzung unserer Spatial-Visual-View Fusion und über 200.000 kuratierten 3D-rekonstruktiven Instruction-Tuning-Frage-Antwort-Paaren (QA) aligniert VLM-3R effektiv den realen räumlichen Kontext mit Sprachanweisungen. Dies ermöglicht monokulare 3D-räumliche Unterstützung und verkörperte Schlussfolgerungen. Um die Bewertung des zeitlichen Denkens zu erleichtern, führen wir den Vision-Spatial-Temporal Intelligence Benchmark ein, der über 138.600 QA-Paare in fünf verschiedenen Aufgaben umfasst, die sich auf sich entwickelnde räumliche Beziehungen konzentrieren. Umfangreiche Experimente zeigen, dass unser Modell, VLM-3R, nicht nur robustes visuell-räumliches Denken ermöglicht, sondern auch das Verständnis für zeitliche 3D-Kontextveränderungen fördert und sowohl in der Genauigkeit als auch in der Skalierbarkeit überzeugt.
English
The rapid advancement of Large Multimodal Models (LMMs) for 2D images and videos has motivated extending these models to understand 3D scenes, aiming for human-like visual-spatial intelligence. Nevertheless, achieving deep spatial understanding comparable to human capabilities poses significant challenges in model encoding and data acquisition. Existing methods frequently depend on external depth sensors for geometry capture or utilize off-the-shelf algorithms for pre-constructing 3D maps, thereby limiting their scalability, especially with prevalent monocular video inputs and for time-sensitive applications. In this work, we introduce VLM-3R, a unified framework for Vision-Language Models (VLMs) that incorporates 3D Reconstructive instruction tuning. VLM-3R processes monocular video frames by employing a geometry encoder to derive implicit 3D tokens that represent spatial understanding. Leveraging our Spatial-Visual-View Fusion and over 200K curated 3D reconstructive instruction tuning question-answer (QA) pairs, VLM-3R effectively aligns real-world spatial context with language instructions. This enables monocular 3D spatial assistance and embodied reasoning. To facilitate the evaluation of temporal reasoning, we introduce the Vision-Spatial-Temporal Intelligence benchmark, featuring over 138.6K QA pairs across five distinct tasks focused on evolving spatial relationships. Extensive experiments demonstrate that our model, VLM-3R, not only facilitates robust visual-spatial reasoning but also enables the understanding of temporal 3D context changes, excelling in both accuracy and scalability.

Summary

AI-Generated Summary

PDF42May 28, 2025