4D LangSplat : Projection de Gaussiennes Langagières en 4D via des Modèles de Langage Multimodaux à Grande Échelle
4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models
March 13, 2025
Auteurs: Wanhua Li, Renping Zhou, Jiawei Zhou, Yingwei Song, Johannes Herter, Minghan Qin, Gao Huang, Hanspeter Pfister
cs.AI
Résumé
L'apprentissage de champs de langage 4D pour permettre des requêtes linguistiques ouvertes et sensibles au temps dans des scènes dynamiques est essentiel pour de nombreuses applications du monde réel. Bien que LangSplat parvienne à ancrer les caractéristiques CLIP dans des représentations gaussiennes 3D, atteignant ainsi précision et efficacité dans des scènes statiques 3D, il ne peut pas gérer des champs dynamiques 4D, car CLIP, conçu pour des tâches image-texte statiques, ne peut pas capturer les dynamiques temporelles dans les vidéos. Les environnements réels sont intrinsèquement dynamiques, avec une sémantique des objets qui évolue dans le temps. La construction d'un champ de langage 4D précis nécessite d'obtenir des caractéristiques vidéo alignées au pixel et spécifiques aux objets, ce que les modèles de vision actuels peinent à réaliser. Pour relever ces défis, nous proposons 4D LangSplat, qui apprend des champs de langage 4D pour gérer efficacement des requêtes ouvertes agnostiques au temps ou sensibles au temps dans des scènes dynamiques. 4D LangSplat contourne l'apprentissage du champ de langage à partir des caractéristiques visuelles et apprend directement à partir de textes générés à partir de légendes vidéo spécifiques aux objets via des Modèles de Langage Multimodaux de Grande Taille (MLLMs). Plus précisément, nous proposons une méthode de prompt vidéo multimodale spécifique aux objets, composée de prompts visuels et textuels qui guident les MLLMs pour générer des légendes détaillées, temporellement cohérentes et de haute qualité pour les objets tout au long d'une vidéo. Ces légendes sont encodées à l'aide d'un Modèle de Langage de Grande Taille en embeddings de phrases de haute qualité, qui servent ensuite de supervision de caractéristiques spécifiques aux objets et alignées au pixel, facilitant les requêtes textuelles ouvertes à travers des espaces d'embedding partagés. Reconnaissant que les objets dans des scènes 4D présentent des transitions fluides entre les états, nous proposons en outre un réseau déformable d'état pour modéliser efficacement ces changements continus dans le temps. Nos résultats sur plusieurs benchmarks démontrent que 4D LangSplat atteint des résultats précis et efficaces pour les requêtes ouvertes à la fois sensibles au temps et agnostiques au temps.
English
Learning 4D language fields to enable time-sensitive, open-ended language
queries in dynamic scenes is essential for many real-world applications. While
LangSplat successfully grounds CLIP features into 3D Gaussian representations,
achieving precision and efficiency in 3D static scenes, it lacks the ability to
handle dynamic 4D fields as CLIP, designed for static image-text tasks, cannot
capture temporal dynamics in videos. Real-world environments are inherently
dynamic, with object semantics evolving over time. Building a precise 4D
language field necessitates obtaining pixel-aligned, object-wise video
features, which current vision models struggle to achieve. To address these
challenges, we propose 4D LangSplat, which learns 4D language fields to handle
time-agnostic or time-sensitive open-vocabulary queries in dynamic scenes
efficiently. 4D LangSplat bypasses learning the language field from vision
features and instead learns directly from text generated from object-wise video
captions via Multimodal Large Language Models (MLLMs). Specifically, we propose
a multimodal object-wise video prompting method, consisting of visual and text
prompts that guide MLLMs to generate detailed, temporally consistent,
high-quality captions for objects throughout a video. These captions are
encoded using a Large Language Model into high-quality sentence embeddings,
which then serve as pixel-aligned, object-specific feature supervision,
facilitating open-vocabulary text queries through shared embedding spaces.
Recognizing that objects in 4D scenes exhibit smooth transitions across states,
we further propose a status deformable network to model these continuous
changes over time effectively. Our results across multiple benchmarks
demonstrate that 4D LangSplat attains precise and efficient results for both
time-sensitive and time-agnostic open-vocabulary queries.Summary
AI-Generated Summary