Feature4X: Het verbinden van elke monovideo met 4D agent-gebaseerde AI via veelzijdige Gaussische kenmerkvelden
Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields
March 26, 2025
Auteurs: Shijie Zhou, Hui Ren, Yijia Weng, Shuwang Zhang, Zhen Wang, Dejia Xu, Zhiwen Fan, Suya You, Zhangyang Wang, Leonidas Guibas, Achuta Kadambi
cs.AI
Samenvatting
Recente vooruitgang in 2D- en multimodale modellen heeft opmerkelijke successen geboekt door grootschalige training op uitgebreide datasets te benutten. Het uitbreiden van deze prestaties om vrije interacties en hoogwaardige semantische operaties met complexe 3D/4D-scènes mogelijk te maken, blijft echter een uitdaging. Deze moeilijkheid komt voort uit de beperkte beschikbaarheid van grootschalige, geannoteerde 3D/4D- of multiview-datasets, die cruciaal zijn voor generaliseerbare visie- en taal taken zoals open-vocabulary- en prompt-gebaseerde segmentatie, taalgestuurde bewerking en visuele vraagbeantwoording (VQA). In dit artikel introduceren we Feature4X, een universeel raamwerk ontworpen om elke functionaliteit van een 2D-visie foundation model uit te breiden naar het 4D-domein, met alleen monoscopische video-invoer, die ruim beschikbaar is uit door gebruikers gegenereerde content. De "X" in Feature4X vertegenwoordigt zijn veelzijdigheid, waardoor elke taak mogelijk wordt door middel van aanpasbare, model-geconditioneerde 4D-featureveld-distillatie. De kern van ons raamwerk is een dynamische optimalisatiestrategie die meerdere modelmogelijkheden verenigt in een enkele representatie. Daarnaast is Feature4X, voor zover wij weten, de eerste methode die de features van video foundation modellen (bijv. SAM2, InternVideo2) distilleert en optilt naar een expliciet 4D-featureveld met behulp van Gaussian Splatting. Onze experimenten tonen nieuwe view-segmentatie, geometrische en visuele scènebewerking, en vrije VQA over alle tijdstappen, mogelijk gemaakt door LLM's in feedback loops. Deze vooruitgangen vergroten het bereik van agent-gebaseerde AI-toepassingen door een basis te bieden voor schaalbare, contextueel en ruimtelijk-tijdelijk bewuste systemen die in staat zijn tot interactie met dynamische 4D-scènes.
English
Recent advancements in 2D and multimodal models have achieved remarkable
success by leveraging large-scale training on extensive datasets. However,
extending these achievements to enable free-form interactions and high-level
semantic operations with complex 3D/4D scenes remains challenging. This
difficulty stems from the limited availability of large-scale, annotated 3D/4D
or multi-view datasets, which are crucial for generalizable vision and language
tasks such as open-vocabulary and prompt-based segmentation, language-guided
editing, and visual question answering (VQA). In this paper, we introduce
Feature4X, a universal framework designed to extend any functionality from 2D
vision foundation model into the 4D realm, using only monocular video input,
which is widely available from user-generated content. The "X" in Feature4X
represents its versatility, enabling any task through adaptable,
model-conditioned 4D feature field distillation. At the core of our framework
is a dynamic optimization strategy that unifies multiple model capabilities
into a single representation. Additionally, to the best of our knowledge,
Feature4X is the first method to distill and lift the features of video
foundation models (e.g. SAM2, InternVideo2) into an explicit 4D feature field
using Gaussian Splatting. Our experiments showcase novel view segment anything,
geometric and appearance scene editing, and free-form VQA across all time
steps, empowered by LLMs in feedback loops. These advancements broaden the
scope of agentic AI applications by providing a foundation for scalable,
contextually and spatiotemporally aware systems capable of immersive dynamic 4D
scene interaction.Summary
AI-Generated Summary