ChatPaper.aiChatPaper

Feature4X: Conectando cualquier video monocular a la IA agentica 4D con campos de características gaussianos versátiles

Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields

March 26, 2025
Autores: Shijie Zhou, Hui Ren, Yijia Weng, Shuwang Zhang, Zhen Wang, Dejia Xu, Zhiwen Fan, Suya You, Zhangyang Wang, Leonidas Guibas, Achuta Kadambi
cs.AI

Resumen

Los recientes avances en modelos 2D y multimodales han logrado un éxito notable al aprovechar el entrenamiento a gran escala en extensos conjuntos de datos. Sin embargo, extender estos logros para permitir interacciones de forma libre y operaciones semánticas de alto nivel con escenas 3D/4D complejas sigue siendo un desafío. Esta dificultad surge de la disponibilidad limitada de conjuntos de datos 3D/4D o multivista anotados a gran escala, que son cruciales para tareas generalizables de visión y lenguaje, como la segmentación basada en vocabulario abierto y en indicaciones, la edición guiada por lenguaje y la respuesta a preguntas visuales (VQA). En este artículo, presentamos Feature4X, un marco universal diseñado para extender cualquier funcionalidad de un modelo de visión 2D al ámbito 4D, utilizando únicamente entrada de video monocular, ampliamente disponible en contenido generado por usuarios. La "X" en Feature4X representa su versatilidad, permitiendo cualquier tarea a través de la destilación adaptable de campos de características 4D condicionados por modelos. En el núcleo de nuestro marco se encuentra una estrategia de optimización dinámica que unifica múltiples capacidades de modelos en una única representación. Además, hasta donde sabemos, Feature4X es el primer método en destilar y elevar las características de modelos de video fundamentales (por ejemplo, SAM2, InternVideo2) a un campo de características 4D explícito utilizando Gaussian Splatting. Nuestros experimentos muestran la segmentación de cualquier cosa en nuevas vistas, la edición geométrica y de apariencia de escenas, y VQA de forma libre en todos los pasos de tiempo, potenciados por LLMs en bucles de retroalimentación. Estos avances amplían el alcance de las aplicaciones de IA agentica al proporcionar una base para sistemas escalables, conscientes del contexto y espacio-tiempo, capaces de interacción inmersiva con escenas dinámicas 4D.
English
Recent advancements in 2D and multimodal models have achieved remarkable success by leveraging large-scale training on extensive datasets. However, extending these achievements to enable free-form interactions and high-level semantic operations with complex 3D/4D scenes remains challenging. This difficulty stems from the limited availability of large-scale, annotated 3D/4D or multi-view datasets, which are crucial for generalizable vision and language tasks such as open-vocabulary and prompt-based segmentation, language-guided editing, and visual question answering (VQA). In this paper, we introduce Feature4X, a universal framework designed to extend any functionality from 2D vision foundation model into the 4D realm, using only monocular video input, which is widely available from user-generated content. The "X" in Feature4X represents its versatility, enabling any task through adaptable, model-conditioned 4D feature field distillation. At the core of our framework is a dynamic optimization strategy that unifies multiple model capabilities into a single representation. Additionally, to the best of our knowledge, Feature4X is the first method to distill and lift the features of video foundation models (e.g. SAM2, InternVideo2) into an explicit 4D feature field using Gaussian Splatting. Our experiments showcase novel view segment anything, geometric and appearance scene editing, and free-form VQA across all time steps, empowered by LLMs in feedback loops. These advancements broaden the scope of agentic AI applications by providing a foundation for scalable, contextually and spatiotemporally aware systems capable of immersive dynamic 4D scene interaction.

Summary

AI-Generated Summary

PDF82March 28, 2025