ChatPaper.aiChatPaper

4D LangSplat: 4D Language Gaussian Splatting mediante Modelos de Lenguaje Multimodales a Gran Escala

4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models

March 13, 2025
Autores: Wanhua Li, Renping Zhou, Jiawei Zhou, Yingwei Song, Johannes Herter, Minghan Qin, Gao Huang, Hanspeter Pfister
cs.AI

Resumen

Aprender campos de lenguaje 4D para habilitar consultas lingüísticas sensibles al tiempo y de vocabulario abierto en escenas dinámicas es esencial para muchas aplicaciones del mundo real. Si bien LangSplat logra anclar características de CLIP en representaciones de Gaussianas 3D, alcanzando precisión y eficiencia en escenas estáticas 3D, carece de la capacidad para manejar campos dinámicos 4D, ya que CLIP, diseñado para tareas estáticas de imagen-texto, no puede capturar dinámicas temporales en videos. Los entornos del mundo real son inherentemente dinámicos, con semánticas de objetos que evolucionan con el tiempo. Construir un campo de lenguaje 4D preciso requiere obtener características de video alineadas a nivel de píxel y específicas por objeto, algo que los modelos de visión actuales tienen dificultades para lograr. Para abordar estos desafíos, proponemos 4D LangSplat, que aprende campos de lenguaje 4D para manejar consultas de vocabulario abierto agnósticas al tiempo o sensibles al tiempo en escenas dinámicas de manera eficiente. 4D LangSplat evita aprender el campo de lenguaje a partir de características visuales y, en su lugar, aprende directamente del texto generado a partir de descripciones de video específicas por objeto mediante Modelos de Lenguaje Multimodales de Gran Escala (MLLMs). Específicamente, proponemos un método de prompting de video específico por objeto y multimodal, que consiste en prompts visuales y de texto que guían a los MLLMs para generar descripciones detalladas, temporalmente consistentes y de alta calidad para objetos a lo largo de un video. Estas descripciones se codifican utilizando un Modelo de Lenguaje de Gran Escala en embeddings de oraciones de alta calidad, que luego sirven como supervisión de características específicas por objeto y alineadas a nivel de píxel, facilitando consultas de texto de vocabulario abierto a través de espacios de embedding compartidos. Reconociendo que los objetos en escenas 4D exhiben transiciones suaves entre estados, proponemos además una red deformable de estado para modelar estos cambios continuos en el tiempo de manera efectiva. Nuestros resultados en múltiples benchmarks demuestran que 4D LangSplat alcanza resultados precisos y eficientes tanto para consultas de vocabulario abierto sensibles al tiempo como agnósticas al tiempo.
English
Learning 4D language fields to enable time-sensitive, open-ended language queries in dynamic scenes is essential for many real-world applications. While LangSplat successfully grounds CLIP features into 3D Gaussian representations, achieving precision and efficiency in 3D static scenes, it lacks the ability to handle dynamic 4D fields as CLIP, designed for static image-text tasks, cannot capture temporal dynamics in videos. Real-world environments are inherently dynamic, with object semantics evolving over time. Building a precise 4D language field necessitates obtaining pixel-aligned, object-wise video features, which current vision models struggle to achieve. To address these challenges, we propose 4D LangSplat, which learns 4D language fields to handle time-agnostic or time-sensitive open-vocabulary queries in dynamic scenes efficiently. 4D LangSplat bypasses learning the language field from vision features and instead learns directly from text generated from object-wise video captions via Multimodal Large Language Models (MLLMs). Specifically, we propose a multimodal object-wise video prompting method, consisting of visual and text prompts that guide MLLMs to generate detailed, temporally consistent, high-quality captions for objects throughout a video. These captions are encoded using a Large Language Model into high-quality sentence embeddings, which then serve as pixel-aligned, object-specific feature supervision, facilitating open-vocabulary text queries through shared embedding spaces. Recognizing that objects in 4D scenes exhibit smooth transitions across states, we further propose a status deformable network to model these continuous changes over time effectively. Our results across multiple benchmarks demonstrate that 4D LangSplat attains precise and efficient results for both time-sensitive and time-agnostic open-vocabulary queries.

Summary

AI-Generated Summary

PDF322March 14, 2025