ChatPaper.aiChatPaper

Reconstrucción Conjunta de Geometría 3D y Generación de Movimiento para Síntesis 4D a partir de una Única Imagen

Joint 3D Geometry Reconstruction and Motion Generation for 4D Synthesis from a Single Image

December 4, 2025
Autores: Yanran Zhang, Ziyi Wang, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu
cs.AI

Resumen

La generación de escenas 4D interactivas y dinámicas a partir de una única imagen estática sigue siendo un desafío fundamental. La mayoría de los métodos existentes, ya sean de tipo "generar-y-reconstruir" o "reconstruir-y-generar", desacoplan la geometría del movimiento, lo que proviene inconsistencias espacio-temporales y una pobre generalización. Para abordar estos problemas, extendemos el marco de trabajo "reconstruir-y-generar" para realizar conjuntamente la Generación de Movimiento y la Reconstrucción geométrica para la Síntesis 4D (MoRe4D). En primer lugar, presentamos TrajScene-60K, un conjunto de datos a gran escala de 60.000 muestras de vídeo con trayectorias densas de puntos, que aborda la escasez de datos de escenas 4D de alta calidad. Basándonos en esto, proponemos un Generador de Trayectorias de Escenas 4D basado en difusión (4D-STraG) para generar conjuntamente trayectorias de puntos 4D geométricamente consistentes y con movimiento plausible. Para aprovechar los previos de vista única, diseñamos una estrategia de normalización de movimiento guiada por profundidad y un módulo consciente del movimiento para una integración efectiva de la geometría y la dinámica. A continuación, proponemos un Módulo de Síntesis de Vista 4D (4D-ViSM) para renderizar vídeos con trayectorias de cámara arbitrarias a partir de las representaciones de pistas de puntos 4D. Los experimentos demuestran que MoRe4D genera escenas 4D de alta calidad con consistencia multi-vista y ricos detalles dinámicos a partir de una sola imagen. Código: https://github.com/Zhangyr2022/MoRe4D.
English
Generating interactive and dynamic 4D scenes from a single static image remains a core challenge. Most existing generate-then-reconstruct and reconstruct-then-generate methods decouple geometry from motion, causing spatiotemporal inconsistencies and poor generalization. To address these, we extend the reconstruct-then-generate framework to jointly perform Motion generation and geometric Reconstruction for 4D Synthesis (MoRe4D). We first introduce TrajScene-60K, a large-scale dataset of 60,000 video samples with dense point trajectories, addressing the scarcity of high-quality 4D scene data. Based on this, we propose a diffusion-based 4D Scene Trajectory Generator (4D-STraG) to jointly generate geometrically consistent and motion-plausible 4D point trajectories. To leverage single-view priors, we design a depth-guided motion normalization strategy and a motion-aware module for effective geometry and dynamics integration. We then propose a 4D View Synthesis Module (4D-ViSM) to render videos with arbitrary camera trajectories from 4D point track representations. Experiments show that MoRe4D generates high-quality 4D scenes with multi-view consistency and rich dynamic details from a single image. Code: https://github.com/Zhangyr2022/MoRe4D.
PDF152December 9, 2025