ChatPaper.aiChatPaper

Apprendimento da Video per il Mondo 3D: Potenziamento dei MLLM con Prior di Visione 3D e Geometria

Learning from Videos for 3D World: Enhancing MLLMs with 3D Vision Geometry Priors

May 30, 2025
Autori: Duo Zheng, Shijia Huang, Yanyang Li, Liwei Wang
cs.AI

Abstract

La ricerca precedente ha esplorato l'applicazione dei Modelli Linguistici Multimodali di Grande Scala (MLLMs) nella comprensione di scene 3D interpretandole come video. Questi approcci generalmente dipendono da input di dati 3D completi, come nuvole di punti o mappe ricostruite in vista dall'alto (BEV). Nella nostra ricerca, avanziamo in questo campo potenziando la capacità degli MLLMs di comprendere e ragionare negli spazi 3D direttamente dai dati video, senza la necessità di input 3D aggiuntivi. Proponiamo un metodo nuovo ed efficiente, il Modello Linguistico di Grande Scala per la Geometria 3D da Video (VG LLM). Il nostro approccio utilizza un codificatore di geometria visiva 3D che estrae informazioni preliminari 3D da sequenze video. Queste informazioni vengono integrate con token visivi e inserite nell'MLLM. Esperimenti estensivi hanno dimostrato che il nostro metodo ha ottenuto miglioramenti sostanziali in vari compiti relativi alla comprensione delle scene 3D e al ragionamento spaziale, tutti appresi direttamente da fonti video. In modo impressionante, il nostro modello da 4B, che non si basa su input espliciti di dati 3D, raggiunge risultati competitivi rispetto ai metodi all'avanguardia esistenti, e supera persino il Gemini-1.5-Pro nelle valutazioni VSI-Bench.
English
Previous research has investigated the application of Multimodal Large Language Models (MLLMs) in understanding 3D scenes by interpreting them as videos. These approaches generally depend on comprehensive 3D data inputs, such as point clouds or reconstructed Bird's-Eye View (BEV) maps. In our research, we advance this field by enhancing the capability of MLLMs to understand and reason in 3D spaces directly from video data, without the need for additional 3D input. We propose a novel and efficient method, the Video-3D Geometry Large Language Model (VG LLM). Our approach employs a 3D visual geometry encoder that extracts 3D prior information from video sequences. This information is integrated with visual tokens and fed into the MLLM. Extensive experiments have shown that our method has achieved substantial improvements in various tasks related to 3D scene understanding and spatial reasoning, all directly learned from video sources. Impressively, our 4B model, which does not rely on explicit 3D data inputs, achieves competitive results compared to existing state-of-the-art methods, and even surpasses the Gemini-1.5-Pro in the VSI-Bench evaluations.
PDF92June 3, 2025