ChatPaper.aiChatPaper

Apprentissage à partir de vidéos pour un monde en 3D : Amélioration des MLLM avec des connaissances préalables en vision 3D et géométrie

Learning from Videos for 3D World: Enhancing MLLMs with 3D Vision Geometry Priors

May 30, 2025
Auteurs: Duo Zheng, Shijia Huang, Yanyang Li, Liwei Wang
cs.AI

Résumé

Les recherches précédentes ont exploré l'application des Modèles de Langage Multimodaux de Grande Taille (MLLMs) pour la compréhension des scènes 3D en les interprétant comme des vidéos. Ces approches reposent généralement sur des données 3D exhaustives, telles que des nuages de points ou des cartes reconstruites en vue de dessus (Bird's-Eye View, BEV). Dans notre étude, nous faisons progresser ce domaine en améliorant la capacité des MLLMs à comprendre et à raisonner dans des espaces 3D directement à partir de données vidéo, sans nécessiter d'entrées 3D supplémentaires. Nous proposons une méthode novatrice et efficace, le Modèle de Langage de Grande Taille pour la Géométrie 3D à partir de Vidéo (Video-3D Geometry Large Language Model, VG LLM). Notre approche utilise un encodeur de géométrie visuelle 3D qui extrait des informations préalables en 3D à partir de séquences vidéo. Ces informations sont ensuite intégrées avec des tokens visuels et introduites dans le MLLM. Des expériences approfondies ont montré que notre méthode permet d'obtenir des améliorations significatives dans diverses tâches liées à la compréhension des scènes 3D et au raisonnement spatial, le tout appris directement à partir de sources vidéo. De manière impressionnante, notre modèle de 4 milliards de paramètres, qui ne repose pas sur des données 3D explicites, obtient des résultats compétitifs par rapport aux méthodes de pointe existantes, et dépasse même le Gemini-1.5-Pro dans les évaluations du VSI-Bench.
English
Previous research has investigated the application of Multimodal Large Language Models (MLLMs) in understanding 3D scenes by interpreting them as videos. These approaches generally depend on comprehensive 3D data inputs, such as point clouds or reconstructed Bird's-Eye View (BEV) maps. In our research, we advance this field by enhancing the capability of MLLMs to understand and reason in 3D spaces directly from video data, without the need for additional 3D input. We propose a novel and efficient method, the Video-3D Geometry Large Language Model (VG LLM). Our approach employs a 3D visual geometry encoder that extracts 3D prior information from video sequences. This information is integrated with visual tokens and fed into the MLLM. Extensive experiments have shown that our method has achieved substantial improvements in various tasks related to 3D scene understanding and spatial reasoning, all directly learned from video sources. Impressively, our 4B model, which does not rely on explicit 3D data inputs, achieves competitive results compared to existing state-of-the-art methods, and even surpasses the Gemini-1.5-Pro in the VSI-Bench evaluations.
PDF82June 3, 2025