ChatPaper.aiChatPaper

단일 이미지에서 4D 합성을 위한 3D 기하구조 복원 및 동작 생성 연동

Joint 3D Geometry Reconstruction and Motion Generation for 4D Synthesis from a Single Image

December 4, 2025
저자: Yanran Zhang, Ziyi Wang, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu
cs.AI

초록

단일 정적 이미지로부터 인터랙티브하고 동적인 4D 장면을 생성하는 것은 여전히 핵심적인 과제로 남아 있습니다. 기존의 대부분의 생성-후-복원 및 복원-후-생성 방법은 기하학적 구조와 운동을 분리하여 시공간적 불일치와 낮은 일반화 성능을 초래합니다. 이를 해결하기 위해 우리는 복원-후-생성 프레임워크를 확장하여 운동 생성과 기하학적 복원을 공동으로 수행하는 4D 합성 방법(MoRe4D)을 제안합니다. 먼저 고밀도 점 궤적을 포함한 60,000개의 비디오 샘플로 구성된 대규모 데이터셋인 TrajScene-60K를 도입하여 고품질 4D 장면 데이터의 부족 문제를 해결했습니다. 이를 기반으로 기하학적으로 일관되고 운동적으로 그럴듯한 4D 점 궤적을 공동 생성하는 확산 기반 4D 장면 궤적 생성기(4D-STraG)를 제안합니다. 단일 시점 사전 지식을 활용하기 위해 깊이 정보 기반 운동 정규화 전략과 효과적인 기하학 및 역학 통합을 위한 운동 인식 모듈을 설계했습니다. 또한 4D 점 궤적 표현으로부터 임의의 카메라 궤적을 가진 비디오를 렌더링하기 위한 4D 시점 합성 모듈(4D-ViSM)을 제안합니다. 실험 결과, MoRe4D는 단일 이미지로부터 다중 시점 일관성과 풍부한 동적 세부 정보를 갖춘 고품질 4D 장면을 생성함을 보여줍니다. 코드: https://github.com/Zhangyr2022/MoRe4D.
English
Generating interactive and dynamic 4D scenes from a single static image remains a core challenge. Most existing generate-then-reconstruct and reconstruct-then-generate methods decouple geometry from motion, causing spatiotemporal inconsistencies and poor generalization. To address these, we extend the reconstruct-then-generate framework to jointly perform Motion generation and geometric Reconstruction for 4D Synthesis (MoRe4D). We first introduce TrajScene-60K, a large-scale dataset of 60,000 video samples with dense point trajectories, addressing the scarcity of high-quality 4D scene data. Based on this, we propose a diffusion-based 4D Scene Trajectory Generator (4D-STraG) to jointly generate geometrically consistent and motion-plausible 4D point trajectories. To leverage single-view priors, we design a depth-guided motion normalization strategy and a motion-aware module for effective geometry and dynamics integration. We then propose a 4D View Synthesis Module (4D-ViSM) to render videos with arbitrary camera trajectories from 4D point track representations. Experiments show that MoRe4D generates high-quality 4D scenes with multi-view consistency and rich dynamic details from a single image. Code: https://github.com/Zhangyr2022/MoRe4D.
PDF152December 9, 2025