4D LangSplat: 4D Taal Gaussische Splatting via Multimodale Grote Taalmodellen
4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models
March 13, 2025
Auteurs: Wanhua Li, Renping Zhou, Jiawei Zhou, Yingwei Song, Johannes Herter, Minghan Qin, Gao Huang, Hanspeter Pfister
cs.AI
Samenvatting
Het leren van 4D-taalvelden om tijdgevoelige, open-einde taalquery's in dynamische scènes mogelijk te maken, is essentieel voor veel real-world toepassingen. Hoewel LangSplat CLIP-features succesvol verankert in 3D Gaussiaanse representaties, waardoor precisie en efficiëntie in statische 3D-scènes worden bereikt, mist het de mogelijkheid om dynamische 4D-velden te verwerken, omdat CLIP, ontworpen voor statische beeld-tekst taken, geen temporele dynamiek in video's kan vastleggen. Real-world omgevingen zijn van nature dynamisch, waarbij de semantiek van objecten in de tijd evolueert. Het bouwen van een precies 4D-taalveld vereist het verkrijgen van pixel-uitgelijnde, objectgewijze videofeatures, wat huidige vision-modellen moeilijk kunnen bereiken. Om deze uitdagingen aan te pakken, stellen we 4D LangSplat voor, dat 4D-taalvelden leert om tijd-onafhankelijke of tijdgevoelige open-vocabulary query's in dynamische scènes efficiënt te verwerken. 4D LangSplat omzeilt het leren van het taalveld vanuit vision-features en leert direct vanuit tekst gegenereerd uit objectgewijze videobijschriften via Multimodale Grote Taalmodellen (MLLMs). Specifiek stellen we een multimodale objectgewijze video-prompting methode voor, bestaande uit visuele en tekstuele prompts die MLLMs begeleiden om gedetailleerde, temporeel consistente, hoogwaardige bijschriften voor objecten gedurende een video te genereren. Deze bijschriften worden gecodeerd met een Groot Taalmodel in hoogwaardige zin-embeddings, die vervolgens dienen als pixel-uitgelijnde, object-specifieke feature-supervisie, waardoor open-vocabulary tekstquery's via gedeelde embedding-ruimtes worden gefaciliteerd. Erkennend dat objecten in 4D-scènes soepele overgangen tussen statussen vertonen, stellen we verder een status-deformeerbaar netwerk voor om deze continue veranderingen in de tijd effectief te modelleren. Onze resultaten over meerdere benchmarks tonen aan dat 4D LangSplat precieze en efficiënte resultaten behaalt voor zowel tijdgevoelige als tijd-onafhankelijke open-vocabulary query's.
English
Learning 4D language fields to enable time-sensitive, open-ended language
queries in dynamic scenes is essential for many real-world applications. While
LangSplat successfully grounds CLIP features into 3D Gaussian representations,
achieving precision and efficiency in 3D static scenes, it lacks the ability to
handle dynamic 4D fields as CLIP, designed for static image-text tasks, cannot
capture temporal dynamics in videos. Real-world environments are inherently
dynamic, with object semantics evolving over time. Building a precise 4D
language field necessitates obtaining pixel-aligned, object-wise video
features, which current vision models struggle to achieve. To address these
challenges, we propose 4D LangSplat, which learns 4D language fields to handle
time-agnostic or time-sensitive open-vocabulary queries in dynamic scenes
efficiently. 4D LangSplat bypasses learning the language field from vision
features and instead learns directly from text generated from object-wise video
captions via Multimodal Large Language Models (MLLMs). Specifically, we propose
a multimodal object-wise video prompting method, consisting of visual and text
prompts that guide MLLMs to generate detailed, temporally consistent,
high-quality captions for objects throughout a video. These captions are
encoded using a Large Language Model into high-quality sentence embeddings,
which then serve as pixel-aligned, object-specific feature supervision,
facilitating open-vocabulary text queries through shared embedding spaces.
Recognizing that objects in 4D scenes exhibit smooth transitions across states,
we further propose a status deformable network to model these continuous
changes over time effectively. Our results across multiple benchmarks
demonstrate that 4D LangSplat attains precise and efficient results for both
time-sensitive and time-agnostic open-vocabulary queries.Summary
AI-Generated Summary