4D LangSplat: 4D Language Gaussian Splatting tramite Modelli Linguistici Multimodali di Grande Scala
4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models
March 13, 2025
Autori: Wanhua Li, Renping Zhou, Jiawei Zhou, Yingwei Song, Johannes Herter, Minghan Qin, Gao Huang, Hanspeter Pfister
cs.AI
Abstract
L'apprendimento di campi linguistici 4D per abilitare query linguistiche aperte e sensibili al tempo in scene dinamiche è essenziale per molte applicazioni del mondo reale. Sebbene LangSplat abbia con successo ancorato le caratteristiche CLIP in rappresentazioni 3D Gaussiane, raggiungendo precisione ed efficienza in scene statiche 3D, manca della capacità di gestire campi dinamici 4D poiché CLIP, progettato per compiti statici immagine-testo, non può catturare le dinamiche temporali nei video. Gli ambienti del mondo reale sono intrinsecamente dinamici, con la semantica degli oggetti che evolve nel tempo. Costruire un campo linguistico 4D preciso richiede l'ottenimento di caratteristiche video allineate a livello di pixel e specifiche per oggetto, cosa che i modelli di visione attuali faticano a raggiungere. Per affrontare queste sfide, proponiamo 4D LangSplat, che apprende campi linguistici 4D per gestire in modo efficiente query aperte e agnostiche o sensibili al tempo in scene dinamiche. 4D LangSplat evita di apprendere il campo linguistico dalle caratteristiche visive e invece apprende direttamente dal testo generato da didascalie video specifiche per oggetto tramite Modelli Linguistici Multimodali di Grande Dimensione (MLLMs). Nello specifico, proponiamo un metodo di prompting video multimodale specifico per oggetto, composto da prompt visivi e testuali che guidano gli MLLMs a generare didascalie dettagliate, temporalmente coerenti e di alta qualità per gli oggetti lungo un video. Queste didascalie vengono codificate utilizzando un Modello Linguistico di Grande Dimensione in incorporamenti di frasi di alta qualità, che poi servono come supervisione delle caratteristiche specifiche per oggetto e allineate a livello di pixel, facilitando query testuali aperte attraverso spazi di incorporamento condivisi. Riconoscendo che gli oggetti in scene 4D mostrano transizioni fluide tra stati, proponiamo ulteriormente una rete deformabile di stato per modellare efficacemente questi cambiamenti continui nel tempo. I nostri risultati su più benchmark dimostrano che 4D LangSplat raggiunge risultati precisi ed efficienti sia per query aperte sensibili al tempo che agnostiche al tempo.
English
Learning 4D language fields to enable time-sensitive, open-ended language
queries in dynamic scenes is essential for many real-world applications. While
LangSplat successfully grounds CLIP features into 3D Gaussian representations,
achieving precision and efficiency in 3D static scenes, it lacks the ability to
handle dynamic 4D fields as CLIP, designed for static image-text tasks, cannot
capture temporal dynamics in videos. Real-world environments are inherently
dynamic, with object semantics evolving over time. Building a precise 4D
language field necessitates obtaining pixel-aligned, object-wise video
features, which current vision models struggle to achieve. To address these
challenges, we propose 4D LangSplat, which learns 4D language fields to handle
time-agnostic or time-sensitive open-vocabulary queries in dynamic scenes
efficiently. 4D LangSplat bypasses learning the language field from vision
features and instead learns directly from text generated from object-wise video
captions via Multimodal Large Language Models (MLLMs). Specifically, we propose
a multimodal object-wise video prompting method, consisting of visual and text
prompts that guide MLLMs to generate detailed, temporally consistent,
high-quality captions for objects throughout a video. These captions are
encoded using a Large Language Model into high-quality sentence embeddings,
which then serve as pixel-aligned, object-specific feature supervision,
facilitating open-vocabulary text queries through shared embedding spaces.
Recognizing that objects in 4D scenes exhibit smooth transitions across states,
we further propose a status deformable network to model these continuous
changes over time effectively. Our results across multiple benchmarks
demonstrate that 4D LangSplat attains precise and efficient results for both
time-sensitive and time-agnostic open-vocabulary queries.