One4D : Génération et reconstruction 4D unifiées via un contrôle LoRA découplé
One4D: Unified 4D Generation and Reconstruction via Decoupled LoRA Control
November 24, 2025
papers.authors: Zhenxing Mi, Yuxin Wang, Dan Xu
cs.AI
papers.abstract
Nous présentons One4D, un cadre unifié pour la génération et la reconstruction 4D qui produit un contenu 4D dynamique sous forme de trames RVB et de cartes de points synchronisées. En traitant de manière cohérente les différentes sparsités des trames de conditionnement grâce à un mécanisme de conditionnement masqué unifié (UMC), One4D peut passer de manière transparente de la génération 4D à partir d'une seule image, à la reconstruction 4D à partir d'une vidéo complète, et à la génération et reconstruction mixtes à partir de trames éparses. Notre cadre adapte un modèle puissant de génération vidéo pour la génération conjointe de trames RVB et de cartes de points, avec des architectures de réseau soigneusement conçues. Les stratégies de fine-tuning par diffusion couramment utilisées pour la reconstruction de cartes de profondeur ou de points échouent souvent sur la génération conjointe de trames RVB et de points, dégradant rapidement le modèle vidéo de base. Pour relever ce défi, nous introduisons le Contrôle LoRA Découplé (DLC), qui utilise deux adaptateurs LoRA spécifiques à la modalité pour former des branches de calcul découplées pour les trames RVB et les cartes de points, connectées par des liens de contrôle légers et initialisés à zéro qui apprennent progressivement une cohérence mutuelle au niveau pixel. Entraîné sur un mélange de jeux de données 4D synthétiques et réels avec des budgets de calcul modestes, One4D produit des trames RVB de haute qualité et des cartes de points précises pour les tâches de génération et de reconstruction. Ce travail représente une étape vers la modélisation générale et de haute qualité d'un monde 4D basée sur la géométrie à l'aide de modèles de diffusion vidéo. Page du projet : https://mizhenxing.github.io/One4D
English
We present One4D, a unified framework for 4D generation and reconstruction that produces dynamic 4D content as synchronized RGB frames and pointmaps. By consistently handling varying sparsities of conditioning frames through a Unified Masked Conditioning (UMC) mechanism, One4D can seamlessly transition between 4D generation from a single image, 4D reconstruction from a full video, and mixed generation and reconstruction from sparse frames. Our framework adapts a powerful video generation model for joint RGB and pointmap generation, with carefully designed network architectures. The commonly used diffusion finetuning strategies for depthmap or pointmap reconstruction often fail on joint RGB and pointmap generation, quickly degrading the base video model. To address this challenge, we introduce Decoupled LoRA Control (DLC), which employs two modality-specific LoRA adapters to form decoupled computation branches for RGB frames and pointmaps, connected by lightweight, zero-initialized control links that gradually learn mutual pixel-level consistency. Trained on a mixture of synthetic and real 4D datasets under modest computational budgets, One4D produces high-quality RGB frames and accurate pointmaps across both generation and reconstruction tasks. This work represents a step toward general, high-quality geometry-based 4D world modeling using video diffusion models. Project page: https://mizhenxing.github.io/One4D