ChatPaper.aiChatPaper

ShapeGen4D: Rumo à Geração de Formas 4D de Alta Qualidade a partir de Vídeos

ShapeGen4D: Towards High Quality 4D Shape Generation from Videos

October 7, 2025
Autores: Jiraphon Yenphraphai, Ashkan Mirzaei, Jianqi Chen, Jiaxu Zou, Sergey Tulyakov, Raymond A. Yeh, Peter Wonka, Chaoyang Wang
cs.AI

Resumo

A geração de formas 4D condicionada por vídeo tem como objetivo recuperar a geometria 3D variável no tempo e a aparência consistente com a visão diretamente a partir de um vídeo de entrada. Neste trabalho, introduzimos um framework nativo de geração de vídeo para formas 4D que sintetiza uma única representação 3D dinâmica de ponta a ponta a partir do vídeo. Nosso framework apresenta três componentes principais baseados em modelos 3D pré-treinados em larga escala: (i) uma atenção temporal que condiciona a geração em todos os quadros, produzindo uma representação dinâmica indexada no tempo; (ii) uma amostragem de pontos consciente do tempo e ancoragem latente 4D que promovem geometria e textura temporalmente consistentes; e (iii) compartilhamento de ruído entre quadros para aumentar a estabilidade temporal. Nosso método captura com precisão movimentos não rígidos, mudanças de volume e até transições topológicas sem a necessidade de otimização por quadro. Em diversos vídeos do mundo real, nosso método melhora a robustez e a fidelidade perceptiva, além de reduzir modos de falha em comparação com as abordagens de referência.
English
Video-conditioned 4D shape generation aims to recover time-varying 3D geometry and view-consistent appearance directly from an input video. In this work, we introduce a native video-to-4D shape generation framework that synthesizes a single dynamic 3D representation end-to-end from the video. Our framework introduces three key components based on large-scale pre-trained 3D models: (i) a temporal attention that conditions generation on all frames while producing a time-indexed dynamic representation; (ii) a time-aware point sampling and 4D latent anchoring that promote temporally consistent geometry and texture; and (iii) noise sharing across frames to enhance temporal stability. Our method accurately captures non-rigid motion, volume changes, and even topological transitions without per-frame optimization. Across diverse in-the-wild videos, our method improves robustness and perceptual fidelity and reduces failure modes compared with the baselines.
PDF172October 8, 2025