ChatPaper.aiChatPaper

Feature4X : Relier n'importe quelle vidéo monoculaire à une IA agentique 4D grâce à des champs de caractéristiques gaussiens polyvalents

Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields

March 26, 2025
Auteurs: Shijie Zhou, Hui Ren, Yijia Weng, Shuwang Zhang, Zhen Wang, Dejia Xu, Zhiwen Fan, Suya You, Zhangyang Wang, Leonidas Guibas, Achuta Kadambi
cs.AI

Résumé

Les récentes avancées dans les modèles 2D et multimodaux ont obtenu des succès remarquables en exploitant un entraînement à grande échelle sur des ensembles de données étendus. Cependant, étendre ces réalisations pour permettre des interactions libres et des opérations sémantiques de haut niveau avec des scènes 3D/4D complexes reste un défi. Cette difficulté découle de la disponibilité limitée de grands ensembles de données 3D/4D ou multi-vues annotés, qui sont cruciaux pour des tâches généralisables de vision et de langage telles que la segmentation à vocabulaire ouvert et basée sur des prompts, l'édition guidée par le langage, et la réponse à des questions visuelles (VQA). Dans cet article, nous présentons Feature4X, un cadre universel conçu pour étendre toute fonctionnalité d'un modèle de fondation de vision 2D au domaine 4D, en utilisant uniquement une entrée vidéo monoculaire, largement disponible dans le contenu généré par les utilisateurs. Le "X" dans Feature4X représente sa polyvalence, permettant toute tâche grâce à une distillation adaptable de champs de caractéristiques 4D conditionnés par le modèle. Au cœur de notre cadre se trouve une stratégie d'optimisation dynamique qui unifie plusieurs capacités de modèles en une seule représentation. De plus, à notre connaissance, Feature4X est la première méthode à distiller et à élever les caractéristiques des modèles de fondation vidéo (par exemple, SAM2, InternVideo2) dans un champ de caractéristiques 4D explicite en utilisant le Gaussian Splatting. Nos expériences mettent en avant la segmentation de nouvelles vues, l'édition géométrique et d'apparence de scènes, et la VQA libre à travers toutes les étapes temporelles, renforcées par des LLM dans des boucles de rétroaction. Ces avancées élargissent le champ des applications de l'IA agentique en fournissant une base pour des systèmes évolutifs, conscients du contexte et spatio-temporellement, capables d'interactions immersives avec des scènes dynamiques 4D.
English
Recent advancements in 2D and multimodal models have achieved remarkable success by leveraging large-scale training on extensive datasets. However, extending these achievements to enable free-form interactions and high-level semantic operations with complex 3D/4D scenes remains challenging. This difficulty stems from the limited availability of large-scale, annotated 3D/4D or multi-view datasets, which are crucial for generalizable vision and language tasks such as open-vocabulary and prompt-based segmentation, language-guided editing, and visual question answering (VQA). In this paper, we introduce Feature4X, a universal framework designed to extend any functionality from 2D vision foundation model into the 4D realm, using only monocular video input, which is widely available from user-generated content. The "X" in Feature4X represents its versatility, enabling any task through adaptable, model-conditioned 4D feature field distillation. At the core of our framework is a dynamic optimization strategy that unifies multiple model capabilities into a single representation. Additionally, to the best of our knowledge, Feature4X is the first method to distill and lift the features of video foundation models (e.g. SAM2, InternVideo2) into an explicit 4D feature field using Gaussian Splatting. Our experiments showcase novel view segment anything, geometric and appearance scene editing, and free-form VQA across all time steps, empowered by LLMs in feedback loops. These advancements broaden the scope of agentic AI applications by providing a foundation for scalable, contextually and spatiotemporally aware systems capable of immersive dynamic 4D scene interaction.

Summary

AI-Generated Summary

PDF82March 28, 2025