ChatPaper.aiChatPaper

Gemeinsame 3D-Geometrierekonstruktion und Bewegungsgenerierung für 4D-Synthese aus einem Einzelbild

Joint 3D Geometry Reconstruction and Motion Generation for 4D Synthesis from a Single Image

December 4, 2025
papers.authors: Yanran Zhang, Ziyi Wang, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu
cs.AI

papers.abstract

Die Erzeugung interaktiver und dynamischer 4D-Szenen aus einem einzelnen statischen Bild bleibt eine zentrale Herausforderung. Die meisten bestehenden Methoden des Typs "Generieren-dann-Rekonstruieren" oder "Rekonstruieren-dann-Generieren" entkoppeln Geometrie von Bewegung, was zu raumzeitlichen Inkonsistenzen und schlechter Generalisierung führt. Um diese Probleme zu adressieren, erweitern wir den "Rekonstruieren-dann-Generieren"-Ansatz, um gemeinsam Bewegungsgenerierung und geometrische Rekonstruktion für die 4D-Synthese (MoRe4D) durchzuführen. Wir führen zunächst TrajScene-60K ein, einen umfangreichen Datensatz mit 60.000 Videobeispielen und dichten Punkt-Trajektorien, der die Knappheit hochwertiger 4D-Szenendaten behebt. Darauf aufbauend schlagen wir einen diffusionsbasierten 4D-Szenen-Trajektoriengenerator (4D-STraG) vor, der gemeinsam geometrisch konsistente und bewegungsplausible 4D-Punkttrajektorien erzeugt. Um Einzelansichts-Priorinformationen zu nutzen, entwerfen wir eine tiefengeleitete Bewegungsnormalisierungsstrategie und ein bewegungssensitives Modul für eine effektive Integration von Geometrie und Dynamik. Anschließend schlagen wir ein 4D-View-Synthese-Modul (4D-ViSM) vor, um Videos mit beliebigen Kameratrajektorien aus 4D-Punktverfolgungsrepräsentationen zu rendern. Experimente zeigen, dass MoRe4D hochwertige 4D-Szenen mit multiview-Konsistenz und reichen dynamischen Details aus einem einzelnen Bild erzeugt. Code: https://github.com/Zhangyr2022/MoRe4D.
English
Generating interactive and dynamic 4D scenes from a single static image remains a core challenge. Most existing generate-then-reconstruct and reconstruct-then-generate methods decouple geometry from motion, causing spatiotemporal inconsistencies and poor generalization. To address these, we extend the reconstruct-then-generate framework to jointly perform Motion generation and geometric Reconstruction for 4D Synthesis (MoRe4D). We first introduce TrajScene-60K, a large-scale dataset of 60,000 video samples with dense point trajectories, addressing the scarcity of high-quality 4D scene data. Based on this, we propose a diffusion-based 4D Scene Trajectory Generator (4D-STraG) to jointly generate geometrically consistent and motion-plausible 4D point trajectories. To leverage single-view priors, we design a depth-guided motion normalization strategy and a motion-aware module for effective geometry and dynamics integration. We then propose a 4D View Synthesis Module (4D-ViSM) to render videos with arbitrary camera trajectories from 4D point track representations. Experiments show that MoRe4D generates high-quality 4D scenes with multi-view consistency and rich dynamic details from a single image. Code: https://github.com/Zhangyr2022/MoRe4D.
PDF152December 9, 2025