ShapeGen4D: 비디오 기반 고품질 4D 형상 생성 기술 연구
ShapeGen4D: Towards High Quality 4D Shape Generation from Videos
October 7, 2025
저자: Jiraphon Yenphraphai, Ashkan Mirzaei, Jianqi Chen, Jiaxu Zou, Sergey Tulyakov, Raymond A. Yeh, Peter Wonka, Chaoyang Wang
cs.AI
초록
비디오 기반 4D 형상 생성은 입력 비디오로부터 시간에 따라 변화하는 3D 기하학적 구조와 시점 일관적인 외관을 직접 복원하는 것을 목표로 합니다. 본 연구에서는 비디오로부터 단일 동적 3D 표현을 종단 간(end-to-end)으로 합성하는 네이티브 비디오-투-4D 형상 생성 프레임워크를 소개합니다. 우리의 프레임워크는 대규모 사전 학습된 3D 모델을 기반으로 세 가지 핵심 구성 요소를 도입합니다: (i) 모든 프레임에 대해 생성 조건을 부여하면서 시간 인덱스 동적 표현을 생성하는 시간적 주의 메커니즘(temporal attention), (ii) 시간적으로 일관된 기하학적 구조와 텍스처를 촉진하는 시간 인식 포인트 샘플링 및 4D 잠재 앵커링(time-aware point sampling and 4D latent anchoring), 그리고 (iii) 시간적 안정성을 향상시키기 위한 프레임 간 노이즈 공유(noise sharing across frames)입니다. 우리의 방법은 프레임별 최적화 없이도 비강체 운동, 부피 변화, 심지어 위상 전환까지 정확하게 포착합니다. 다양한 실제 비디오에서 우리의 방법은 기준선(baselines) 대비 견고성과 지각적 충실도를 향상시키고 실패 모드를 줄입니다.
English
Video-conditioned 4D shape generation aims to recover time-varying 3D
geometry and view-consistent appearance directly from an input video. In this
work, we introduce a native video-to-4D shape generation framework that
synthesizes a single dynamic 3D representation end-to-end from the video. Our
framework introduces three key components based on large-scale pre-trained 3D
models: (i) a temporal attention that conditions generation on all frames while
producing a time-indexed dynamic representation; (ii) a time-aware point
sampling and 4D latent anchoring that promote temporally consistent geometry
and texture; and (iii) noise sharing across frames to enhance temporal
stability. Our method accurately captures non-rigid motion, volume changes, and
even topological transitions without per-frame optimization. Across diverse
in-the-wild videos, our method improves robustness and perceptual fidelity and
reduces failure modes compared with the baselines.