ChatPaper.aiChatPaper

ShapeGen4D: Op weg naar hoogwaardige 4D-vormgeneratie uit video's

ShapeGen4D: Towards High Quality 4D Shape Generation from Videos

October 7, 2025
Auteurs: Jiraphon Yenphraphai, Ashkan Mirzaei, Jianqi Chen, Jiaxu Zou, Sergey Tulyakov, Raymond A. Yeh, Peter Wonka, Chaoyang Wang
cs.AI

Samenvatting

Video-geconditioneerde 4D-vormgeneratie heeft als doel om tijdvariërende 3D-geometrie en zicht-consistent uiterlijk direct uit een invoervideo te herstellen. In dit werk introduceren we een native video-naar-4D-vormgeneratie framework dat een enkele dynamische 3D-representatie end-to-end uit de video synthetiseert. Ons framework introduceert drie sleutelcomponenten gebaseerd op grootschalige vooraf getrainde 3D-modellen: (i) een temporele aandacht die de generatie conditioneert op alle frames terwijl een tijd-geïndexeerde dynamische representatie wordt geproduceerd; (ii) een tijd-bewuste puntsampling en 4D latente verankering die temporeel consistente geometrie en textuur bevorderen; en (iii) ruis-deling over frames om temporele stabiliteit te verbeteren. Onze methode vangt nauwkeurig niet-rigide beweging, volumeveranderingen en zelfs topologische overgangen op zonder per-frame optimalisatie. Over diverse in-the-wild video's verbetert onze methode de robuustheid en perceptuele geloofwaardigheid en vermindert het faalmodi in vergelijking met de basislijnen.
English
Video-conditioned 4D shape generation aims to recover time-varying 3D geometry and view-consistent appearance directly from an input video. In this work, we introduce a native video-to-4D shape generation framework that synthesizes a single dynamic 3D representation end-to-end from the video. Our framework introduces three key components based on large-scale pre-trained 3D models: (i) a temporal attention that conditions generation on all frames while producing a time-indexed dynamic representation; (ii) a time-aware point sampling and 4D latent anchoring that promote temporally consistent geometry and texture; and (iii) noise sharing across frames to enhance temporal stability. Our method accurately captures non-rigid motion, volume changes, and even topological transitions without per-frame optimization. Across diverse in-the-wild videos, our method improves robustness and perceptual fidelity and reduces failure modes compared with the baselines.
PDF172October 8, 2025