4D LangSplat: 다중모드 대형 언어 모델을 통한 4D 언어 가우시안 스플래팅
4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models
March 13, 2025
저자: Wanhua Li, Renping Zhou, Jiawei Zhou, Yingwei Song, Johannes Herter, Minghan Qin, Gao Huang, Hanspeter Pfister
cs.AI
초록
시간에 민감하며 개방형 언어 질의를 동적 장면에서 가능하게 하는 4D 언어 필드를 학습하는 것은 많은 실제 응용 프로그램에 필수적입니다. LangSplat은 CLIP 특징을 3D 가우시안 표현으로 성공적으로 고정시켜 3D 정적 장면에서 정밀도와 효율성을 달성했지만, 정적 이미지-텍스트 작업을 위해 설계된 CLIP이 비디오의 시간적 동역학을 포착할 수 없기 때문에 동적 4D 필드를 처리하는 능력이 부족합니다. 실제 환경은 본질적으로 동적이며, 객체 의미론이 시간에 따라 진화합니다. 정밀한 4D 언어 필드를 구축하려면 픽셀 정렬된 객체별 비디오 특징을 얻어야 하는데, 현재의 비전 모델은 이를 달성하기 어렵습니다. 이러한 문제를 해결하기 위해, 우리는 동적 장면에서 시간에 무관하거나 시간에 민감한 개방형 어휘 질의를 효율적으로 처리하기 위해 4D 언어 필드를 학습하는 4D LangSplat을 제안합니다. 4D LangSplat은 비전 특징에서 언어 필드를 학습하는 것을 우회하고, 대신 Multimodal Large Language Models (MLLMs)을 통해 객체별 비디오 캡션에서 생성된 텍스트로부터 직접 학습합니다. 구체적으로, 우리는 비주얼 및 텍스트 프롬프트로 구성된 멀티모달 객체별 비디오 프롬프팅 방법을 제안하여 MLLMs가 비디오 전반에 걸쳐 객체에 대한 상세하고 시간적으로 일관된 고품질 캡션을 생성하도록 유도합니다. 이러한 캡션은 Large Language Model을 사용하여 고품질 문장 임베딩으로 인코딩되며, 이는 픽셀 정렬된 객체별 특징 감독으로 작용하여 공유 임베딩 공간을 통해 개방형 어휘 텍스트 질의를 용이하게 합니다. 4D 장면의 객체가 상태 간에 부드러운 전환을 보인다는 점을 인식하여, 우리는 이러한 연속적인 변화를 효과적으로 모델링하기 위해 상태 변형 가능 네트워크를 추가로 제안합니다. 여러 벤치마크에서의 결과는 4D LangSplat이 시간에 민감하거나 시간에 무관한 개방형 어휘 질의 모두에 대해 정밀하고 효율적인 결과를 달성함을 보여줍니다.
English
Learning 4D language fields to enable time-sensitive, open-ended language
queries in dynamic scenes is essential for many real-world applications. While
LangSplat successfully grounds CLIP features into 3D Gaussian representations,
achieving precision and efficiency in 3D static scenes, it lacks the ability to
handle dynamic 4D fields as CLIP, designed for static image-text tasks, cannot
capture temporal dynamics in videos. Real-world environments are inherently
dynamic, with object semantics evolving over time. Building a precise 4D
language field necessitates obtaining pixel-aligned, object-wise video
features, which current vision models struggle to achieve. To address these
challenges, we propose 4D LangSplat, which learns 4D language fields to handle
time-agnostic or time-sensitive open-vocabulary queries in dynamic scenes
efficiently. 4D LangSplat bypasses learning the language field from vision
features and instead learns directly from text generated from object-wise video
captions via Multimodal Large Language Models (MLLMs). Specifically, we propose
a multimodal object-wise video prompting method, consisting of visual and text
prompts that guide MLLMs to generate detailed, temporally consistent,
high-quality captions for objects throughout a video. These captions are
encoded using a Large Language Model into high-quality sentence embeddings,
which then serve as pixel-aligned, object-specific feature supervision,
facilitating open-vocabulary text queries through shared embedding spaces.
Recognizing that objects in 4D scenes exhibit smooth transitions across states,
we further propose a status deformable network to model these continuous
changes over time effectively. Our results across multiple benchmarks
demonstrate that 4D LangSplat attains precise and efficient results for both
time-sensitive and time-agnostic open-vocabulary queries.Summary
AI-Generated Summary