ChatPaper.aiChatPaper

4D LangSplat: Splatting Gaussiano de Linguagem 4D via Modelos de Linguagem Multimodais de Grande Escala

4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models

March 13, 2025
Autores: Wanhua Li, Renping Zhou, Jiawei Zhou, Yingwei Song, Johannes Herter, Minghan Qin, Gao Huang, Hanspeter Pfister
cs.AI

Resumo

Aprender campos de linguagem 4D para permitir consultas de linguagem sensíveis ao tempo e de vocabulário aberto em cenas dinâmicas é essencial para muitas aplicações do mundo real. Embora o LangSplat tenha conseguido ancorar características do CLIP em representações Gaussianas 3D, alcançando precisão e eficiência em cenas estáticas 3D, ele não possui a capacidade de lidar com campos dinâmicos 4D, já que o CLIP, projetado para tarefas estáticas de imagem-texto, não consegue capturar a dinâmica temporal em vídeos. Ambientes do mundo real são inerentemente dinâmicos, com a semântica dos objetos evoluindo ao longo do tempo. Construir um campo de linguagem 4D preciso exige a obtenção de características de vídeo alinhadas por pixel e específicas por objeto, algo que os modelos de visão atuais têm dificuldade em alcançar. Para enfrentar esses desafios, propomos o 4D LangSplat, que aprende campos de linguagem 4D para lidar eficientemente com consultas de vocabulário aberto agnósticas ao tempo ou sensíveis ao tempo em cenas dinâmicas. O 4D LangSplat contorna a aprendizagem do campo de linguagem a partir de características visuais e, em vez disso, aprende diretamente a partir de textos gerados a partir de legendas específicas por objeto em vídeos por meio de Modelos de Linguagem Multimodais de Grande Escala (MLLMs). Especificamente, propomos um método de prompt de vídeo específico por objeto e multimodal, composto por prompts visuais e textuais que orientam os MLLMs a gerar legendas detalhadas, temporalmente consistentes e de alta qualidade para objetos ao longo de um vídeo. Essas legendas são codificadas usando um Modelo de Linguagem de Grande Escala em embeddings de sentenças de alta qualidade, que então servem como supervisão de características específicas por objeto e alinhadas por pixel, facilitando consultas de texto de vocabulário aberto por meio de espaços de embedding compartilhados. Reconhecendo que objetos em cenas 4D exibem transições suaves entre estados, propomos ainda uma rede deformável de status para modelar efetivamente essas mudanças contínuas ao longo do tempo. Nossos resultados em vários benchmarks demonstram que o 4D LangSplat alcança resultados precisos e eficientes tanto para consultas de vocabulário aberto sensíveis ao tempo quanto agnósticas ao tempo.
English
Learning 4D language fields to enable time-sensitive, open-ended language queries in dynamic scenes is essential for many real-world applications. While LangSplat successfully grounds CLIP features into 3D Gaussian representations, achieving precision and efficiency in 3D static scenes, it lacks the ability to handle dynamic 4D fields as CLIP, designed for static image-text tasks, cannot capture temporal dynamics in videos. Real-world environments are inherently dynamic, with object semantics evolving over time. Building a precise 4D language field necessitates obtaining pixel-aligned, object-wise video features, which current vision models struggle to achieve. To address these challenges, we propose 4D LangSplat, which learns 4D language fields to handle time-agnostic or time-sensitive open-vocabulary queries in dynamic scenes efficiently. 4D LangSplat bypasses learning the language field from vision features and instead learns directly from text generated from object-wise video captions via Multimodal Large Language Models (MLLMs). Specifically, we propose a multimodal object-wise video prompting method, consisting of visual and text prompts that guide MLLMs to generate detailed, temporally consistent, high-quality captions for objects throughout a video. These captions are encoded using a Large Language Model into high-quality sentence embeddings, which then serve as pixel-aligned, object-specific feature supervision, facilitating open-vocabulary text queries through shared embedding spaces. Recognizing that objects in 4D scenes exhibit smooth transitions across states, we further propose a status deformable network to model these continuous changes over time effectively. Our results across multiple benchmarks demonstrate that 4D LangSplat attains precise and efficient results for both time-sensitive and time-agnostic open-vocabulary queries.

Summary

AI-Generated Summary

PDF322March 14, 2025