Leren van video's voor 3D-werelden: Verbetering van MLLM's met 3D-visie en geometrische voorkennis
Learning from Videos for 3D World: Enhancing MLLMs with 3D Vision Geometry Priors
May 30, 2025
Auteurs: Duo Zheng, Shijia Huang, Yanyang Li, Liwei Wang
cs.AI
Samenvatting
Eerder onderzoek heeft de toepassing van Multimodale Grote Taalmodellen (MLLMs) onderzocht bij het begrijpen van 3D-scènes door deze te interpreteren als video's. Deze benaderingen zijn over het algemeen afhankelijk van uitgebreide 3D-gegevensinvoer, zoals puntenwolken of gereconstrueerde Bird's-Eye View (BEV)-kaarten. In ons onderzoek brengen we dit veld verder door het vermogen van MLLMs te verbeteren om 3D-ruimtes te begrijpen en te redeneren, rechtstreeks vanuit videogegevens, zonder de noodzaak van aanvullende 3D-invoer. Wij stellen een nieuwe en efficiënte methode voor, het Video-3D Geometrie Grote Taalmodel (VG LLM). Onze aanpak maakt gebruik van een 3D visuele geometrie-encoder die 3D prior-informatie extraheert uit videosequenties. Deze informatie wordt geïntegreerd met visuele tokens en ingevoerd in het MLLM. Uitgebreide experimenten hebben aangetoond dat onze methode aanzienlijke verbeteringen heeft bereikt in verschillende taken gerelateerd aan 3D-scènebegrip en ruimtelijk redeneren, allemaal rechtstreeks geleerd uit videobronnen. Indrukwekkend genoeg behaalt ons 4B-model, dat niet afhankelijk is van expliciete 3D-gegevensinvoer, competitieve resultaten in vergelijking met bestaande state-of-the-art methoden, en overtreft het zelfs de Gemini-1.5-Pro in de VSI-Bench evaluaties.
English
Previous research has investigated the application of Multimodal Large
Language Models (MLLMs) in understanding 3D scenes by interpreting them as
videos. These approaches generally depend on comprehensive 3D data inputs, such
as point clouds or reconstructed Bird's-Eye View (BEV) maps. In our research,
we advance this field by enhancing the capability of MLLMs to understand and
reason in 3D spaces directly from video data, without the need for additional
3D input. We propose a novel and efficient method, the Video-3D Geometry Large
Language Model (VG LLM). Our approach employs a 3D visual geometry encoder that
extracts 3D prior information from video sequences. This information is
integrated with visual tokens and fed into the MLLM. Extensive experiments have
shown that our method has achieved substantial improvements in various tasks
related to 3D scene understanding and spatial reasoning, all directly learned
from video sources. Impressively, our 4B model, which does not rely on explicit
3D data inputs, achieves competitive results compared to existing
state-of-the-art methods, and even surpasses the Gemini-1.5-Pro in the
VSI-Bench evaluations.