One4D: Generación y Reconstrucción 4D Unificada mediante Control LoRA Desacoplado
One4D: Unified 4D Generation and Reconstruction via Decoupled LoRA Control
November 24, 2025
Autores: Zhenxing Mi, Yuxin Wang, Dan Xu
cs.AI
Resumen
Presentamos One4D, un marco unificado para la generación y reconstrucción 4D que produce contenido 4D dinámico en forma de fotogramas RGB y mapas de puntos sincronizados. Al manejar de forma consistente las diferentes dispersiones de los fotogramas de condicionamiento mediante un mecanismo de Condicionamiento Enmascarado Unificado (UMC), One4D puede transitar sin problemas entre la generación 4D a partir de una sola imagen, la reconstrucción 4D a partir de un vídeo completo, y la generación y reconstrucción mixta a partir de fotogramas dispersos. Nuestro marco adapta un potente modelo de generación de vídeo para la generación conjunta de RGB y mapas de puntos, con arquitecturas de red cuidadosamente diseñadas. Las estrategias de ajuste fino por difusión comúnmente utilizadas para la reconstrucción de mapas de profundidad o de puntos a menudo fallan en la generación conjunta de RGB y mapas de puntos, degradando rápidamente el modelo de vídeo base. Para abordar este desafío, introducimos el Control LoRA Desacoplado (DLC), que emplea dos adaptadores LoRA específicos por modalidad para formar ramas de cálculo desacopladas para fotogramas RGB y mapas de puntos, conectadas por enlaces de control ligeros e inicializados a cero que aprenden gradualmente una consistencia mutua a nivel de píxel. Entrenado con una mezcla de conjuntos de datos 4D sintéticos y reales bajo presupuestos computacionales modestos, One4D produce fotogramas RGB de alta calidad y mapas de puntos precisos tanto en tareas de generación como de reconstrucción. Este trabajo representa un paso hacia el modelado general del mundo 4D basado en geometría de alta calidad utilizando modelos de difusión de vídeo. Página del proyecto: https://mizhenxing.github.io/One4D
English
We present One4D, a unified framework for 4D generation and reconstruction that produces dynamic 4D content as synchronized RGB frames and pointmaps. By consistently handling varying sparsities of conditioning frames through a Unified Masked Conditioning (UMC) mechanism, One4D can seamlessly transition between 4D generation from a single image, 4D reconstruction from a full video, and mixed generation and reconstruction from sparse frames. Our framework adapts a powerful video generation model for joint RGB and pointmap generation, with carefully designed network architectures. The commonly used diffusion finetuning strategies for depthmap or pointmap reconstruction often fail on joint RGB and pointmap generation, quickly degrading the base video model. To address this challenge, we introduce Decoupled LoRA Control (DLC), which employs two modality-specific LoRA adapters to form decoupled computation branches for RGB frames and pointmaps, connected by lightweight, zero-initialized control links that gradually learn mutual pixel-level consistency. Trained on a mixture of synthetic and real 4D datasets under modest computational budgets, One4D produces high-quality RGB frames and accurate pointmaps across both generation and reconstruction tasks. This work represents a step toward general, high-quality geometry-based 4D world modeling using video diffusion models. Project page: https://mizhenxing.github.io/One4D