ChatPaper.aiChatPaper

Feature4X: Conectando Qualquer Vídeo Monocular à IA Agente 4D com Campos de Características Gaussianas Versáteis

Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields

March 26, 2025
Autores: Shijie Zhou, Hui Ren, Yijia Weng, Shuwang Zhang, Zhen Wang, Dejia Xu, Zhiwen Fan, Suya You, Zhangyang Wang, Leonidas Guibas, Achuta Kadambi
cs.AI

Resumo

Avanços recentes em modelos 2D e multimodais alcançaram sucesso notável ao aproveitar o treinamento em grande escala em conjuntos de dados extensos. No entanto, estender essas conquistas para permitir interações de forma livre e operações semânticas de alto nível com cenas 3D/4D complexas continua sendo um desafio. Essa dificuldade decorre da disponibilidade limitada de conjuntos de dados 3D/4D ou multiview em grande escala e anotados, que são cruciais para tarefas generalizáveis de visão e linguagem, como segmentação baseada em vocabulário aberto e prompts, edição guiada por linguagem e resposta a perguntas visuais (VQA). Neste artigo, apresentamos o Feature4X, um framework universal projetado para estender qualquer funcionalidade de um modelo de fundação de visão 2D para o domínio 4D, utilizando apenas vídeo monocular como entrada, amplamente disponível em conteúdo gerado por usuários. O "X" no Feature4X representa sua versatilidade, permitindo qualquer tarefa por meio de destilação de campo de características 4D condicionado por modelos e adaptável. No cerne de nosso framework está uma estratégia de otimização dinâmica que unifica múltiplas capacidades de modelos em uma única representação. Além disso, até onde sabemos, o Feature4X é o primeiro método a destilar e elevar as características de modelos de fundação de vídeo (por exemplo, SAM2, InternVideo2) para um campo de características 4D explícito usando Gaussian Splatting. Nossos experimentos demonstram segmentação de qualquer coisa em novas visões, edição geométrica e de aparência de cenas, e VQA de forma livre em todos os passos de tempo, impulsionados por LLMs em loops de feedback. Esses avanços ampliam o escopo de aplicações de IA agentiva ao fornecer uma base para sistemas escaláveis, contextualmente e espaciotemporalmente conscientes, capazes de interação imersiva com cenas dinâmicas 4D.
English
Recent advancements in 2D and multimodal models have achieved remarkable success by leveraging large-scale training on extensive datasets. However, extending these achievements to enable free-form interactions and high-level semantic operations with complex 3D/4D scenes remains challenging. This difficulty stems from the limited availability of large-scale, annotated 3D/4D or multi-view datasets, which are crucial for generalizable vision and language tasks such as open-vocabulary and prompt-based segmentation, language-guided editing, and visual question answering (VQA). In this paper, we introduce Feature4X, a universal framework designed to extend any functionality from 2D vision foundation model into the 4D realm, using only monocular video input, which is widely available from user-generated content. The "X" in Feature4X represents its versatility, enabling any task through adaptable, model-conditioned 4D feature field distillation. At the core of our framework is a dynamic optimization strategy that unifies multiple model capabilities into a single representation. Additionally, to the best of our knowledge, Feature4X is the first method to distill and lift the features of video foundation models (e.g. SAM2, InternVideo2) into an explicit 4D feature field using Gaussian Splatting. Our experiments showcase novel view segment anything, geometric and appearance scene editing, and free-form VQA across all time steps, empowered by LLMs in feedback loops. These advancements broaden the scope of agentic AI applications by providing a foundation for scalable, contextually and spatiotemporally aware systems capable of immersive dynamic 4D scene interaction.

Summary

AI-Generated Summary

PDF82March 28, 2025