ChatPaper.aiChatPaper

4D LangSplat: 4D-языковое гауссово размытие с использованием мультимодальных больших языковых моделей

4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models

March 13, 2025
Авторы: Wanhua Li, Renping Zhou, Jiawei Zhou, Yingwei Song, Johannes Herter, Minghan Qin, Gao Huang, Hanspeter Pfister
cs.AI

Аннотация

Изучение 4D языковых полей для обеспечения временно-чувствительных, открытых языковых запросов в динамических сценах является важным для многих реальных приложений. Хотя LangSplat успешно закрепляет признаки CLIP в 3D гауссовских представлениях, достигая точности и эффективности в статических 3D сценах, он не способен обрабатывать динамические 4D поля, так как CLIP, разработанный для статических задач "изображение-текст", не может улавливать временную динамику в видео. Реальные среды по своей природе динамичны, и семантика объектов изменяется со временем. Построение точного 4D языкового поля требует получения пиксельно-выровненных, объектно-ориентированных видеопризнаков, что является сложной задачей для современных моделей компьютерного зрения. Для решения этих проблем мы предлагаем 4D LangSplat, который изучает 4D языковые поля для эффективной обработки временно-независимых или временно-чувствительных открытых запросов в динамических сценах. 4D LangSplat обходит необходимость изучения языкового поля из визуальных признаков и вместо этого обучается непосредственно на тексте, сгенерированном из объектно-ориентированных видеозаписей с помощью мультимодальных больших языковых моделей (MLLMs). В частности, мы предлагаем мультимодальный метод объектно-ориентированного видеоподсказывания, состоящий из визуальных и текстовых подсказок, которые направляют MLLMs на генерацию детальных, временно-согласованных, высококачественных описаний для объектов на протяжении видео. Эти описания кодируются с помощью большой языковой модели в высококачественные векторные представления предложений, которые затем служат пиксельно-выровненным, объектно-специфическим признаковым надзором, облегчая открытые текстовые запросы через общие пространства встраивания. Учитывая, что объекты в 4D сценах демонстрируют плавные переходы между состояниями, мы дополнительно предлагаем сеть с деформируемым состоянием для эффективного моделирования этих непрерывных изменений во времени. Наши результаты на нескольких тестовых наборах данных показывают, что 4D LangSplat достигает точных и эффективных результатов как для временно-чувствительных, так и для временно-независимых открытых запросов.
English
Learning 4D language fields to enable time-sensitive, open-ended language queries in dynamic scenes is essential for many real-world applications. While LangSplat successfully grounds CLIP features into 3D Gaussian representations, achieving precision and efficiency in 3D static scenes, it lacks the ability to handle dynamic 4D fields as CLIP, designed for static image-text tasks, cannot capture temporal dynamics in videos. Real-world environments are inherently dynamic, with object semantics evolving over time. Building a precise 4D language field necessitates obtaining pixel-aligned, object-wise video features, which current vision models struggle to achieve. To address these challenges, we propose 4D LangSplat, which learns 4D language fields to handle time-agnostic or time-sensitive open-vocabulary queries in dynamic scenes efficiently. 4D LangSplat bypasses learning the language field from vision features and instead learns directly from text generated from object-wise video captions via Multimodal Large Language Models (MLLMs). Specifically, we propose a multimodal object-wise video prompting method, consisting of visual and text prompts that guide MLLMs to generate detailed, temporally consistent, high-quality captions for objects throughout a video. These captions are encoded using a Large Language Model into high-quality sentence embeddings, which then serve as pixel-aligned, object-specific feature supervision, facilitating open-vocabulary text queries through shared embedding spaces. Recognizing that objects in 4D scenes exhibit smooth transitions across states, we further propose a status deformable network to model these continuous changes over time effectively. Our results across multiple benchmarks demonstrate that 4D LangSplat attains precise and efficient results for both time-sensitive and time-agnostic open-vocabulary queries.

Summary

AI-Generated Summary

PDF322March 14, 2025