Feature4X: Преобразование любого моноскопического видео в 4D агентный ИИ с помощью универсальных гауссовых полей признаков
Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields
March 26, 2025
Авторы: Shijie Zhou, Hui Ren, Yijia Weng, Shuwang Zhang, Zhen Wang, Dejia Xu, Zhiwen Fan, Suya You, Zhangyang Wang, Leonidas Guibas, Achuta Kadambi
cs.AI
Аннотация
Последние достижения в области 2D и мультимодальных моделей позволили добиться значительных успехов благодаря масштабному обучению на обширных наборах данных. Однако перенос этих достижений для обеспечения свободного взаимодействия и выполнения семантических операций высокого уровня с комплексными 3D/4D сценами остается сложной задачей. Эта трудность обусловлена ограниченной доступностью крупномасштабных аннотированных 3D/4D или многовидовых наборов данных, которые имеют решающее значение для обобщаемых задач зрения и языка, таких как сегментация на основе открытого словаря и подсказок, редактирование с использованием языка и визуальный вопросно-ответный анализ (VQA). В данной работе мы представляем Feature4X — универсальную структуру, предназначенную для расширения функциональности любой 2D модели базового зрения в 4D пространство, используя только монокулярное видео, которое широко доступно в пользовательском контенте. "X" в Feature4X символизирует его универсальность, позволяя выполнять любую задачу через адаптируемое, обусловленное моделью дистиллирование 4D поля признаков. В основе нашей структуры лежит динамическая стратегия оптимизации, объединяющая несколько возможностей модели в единое представление. Кроме того, насколько нам известно, Feature4X является первым методом, который дистиллирует и переносит признаки моделей базового видео (например, SAM2, InternVideo2) в явное 4D поле признаков с использованием гауссовского разбрызгивания. Наши эксперименты демонстрируют сегментацию любого объекта в новых ракурсах, редактирование геометрии и внешнего вида сцены, а также свободный VQA на всех временных шагах, усиленные использованием больших языковых моделей (LLM) в обратных связях. Эти достижения расширяют область применения агентного ИИ, предоставляя основу для масштабируемых, контекстуально и пространственно-временно осознанных систем, способных к иммерсивному взаимодействию с динамическими 4D сценами.
English
Recent advancements in 2D and multimodal models have achieved remarkable
success by leveraging large-scale training on extensive datasets. However,
extending these achievements to enable free-form interactions and high-level
semantic operations with complex 3D/4D scenes remains challenging. This
difficulty stems from the limited availability of large-scale, annotated 3D/4D
or multi-view datasets, which are crucial for generalizable vision and language
tasks such as open-vocabulary and prompt-based segmentation, language-guided
editing, and visual question answering (VQA). In this paper, we introduce
Feature4X, a universal framework designed to extend any functionality from 2D
vision foundation model into the 4D realm, using only monocular video input,
which is widely available from user-generated content. The "X" in Feature4X
represents its versatility, enabling any task through adaptable,
model-conditioned 4D feature field distillation. At the core of our framework
is a dynamic optimization strategy that unifies multiple model capabilities
into a single representation. Additionally, to the best of our knowledge,
Feature4X is the first method to distill and lift the features of video
foundation models (e.g. SAM2, InternVideo2) into an explicit 4D feature field
using Gaussian Splatting. Our experiments showcase novel view segment anything,
geometric and appearance scene editing, and free-form VQA across all time
steps, empowered by LLMs in feedback loops. These advancements broaden the
scope of agentic AI applications by providing a foundation for scalable,
contextually and spatiotemporally aware systems capable of immersive dynamic 4D
scene interaction.Summary
AI-Generated Summary