ChatPaper.aiChatPaper

Aprendizaje a partir de videos para el mundo 3D: Mejora de los MLLM con prioridades de visión geométrica 3D

Learning from Videos for 3D World: Enhancing MLLMs with 3D Vision Geometry Priors

May 30, 2025
Autores: Duo Zheng, Shijia Huang, Yanyang Li, Liwei Wang
cs.AI

Resumen

Investigaciones previas han explorado la aplicación de Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) en la comprensión de escenas 3D al interpretarlas como videos. Estos enfoques generalmente dependen de entradas exhaustivas de datos 3D, como nubes de puntos o mapas reconstruidos en vista de pájaro (BEV, por sus siglas en inglés). En nuestra investigación, avanzamos en este campo al mejorar la capacidad de los MLLMs para comprender y razonar en espacios 3D directamente a partir de datos de video, sin la necesidad de entradas adicionales en 3D. Proponemos un método novedoso y eficiente, el Modelo de Lenguaje de Gran Escala de Geometría 3D a partir de Video (VG LLM, por sus siglas en inglés). Nuestro enfoque emplea un codificador de geometría visual 3D que extrae información previa en 3D a partir de secuencias de video. Esta información se integra con tokens visuales y se introduce en el MLLM. Experimentos exhaustivos han demostrado que nuestro método ha logrado mejoras sustanciales en diversas tareas relacionadas con la comprensión de escenas 3D y el razonamiento espacial, todo aprendido directamente a partir de fuentes de video. De manera impresionante, nuestro modelo de 4B, que no depende de entradas explícitas de datos 3D, obtiene resultados competitivos en comparación con los métodos más avanzados existentes, e incluso supera al Gemini-1.5-Pro en las evaluaciones del VSI-Bench.
English
Previous research has investigated the application of Multimodal Large Language Models (MLLMs) in understanding 3D scenes by interpreting them as videos. These approaches generally depend on comprehensive 3D data inputs, such as point clouds or reconstructed Bird's-Eye View (BEV) maps. In our research, we advance this field by enhancing the capability of MLLMs to understand and reason in 3D spaces directly from video data, without the need for additional 3D input. We propose a novel and efficient method, the Video-3D Geometry Large Language Model (VG LLM). Our approach employs a 3D visual geometry encoder that extracts 3D prior information from video sequences. This information is integrated with visual tokens and fed into the MLLM. Extensive experiments have shown that our method has achieved substantial improvements in various tasks related to 3D scene understanding and spatial reasoning, all directly learned from video sources. Impressively, our 4B model, which does not rely on explicit 3D data inputs, achieves competitive results compared to existing state-of-the-art methods, and even surpasses the Gemini-1.5-Pro in the VSI-Bench evaluations.
PDF82June 3, 2025