One4D: Geünificeerde 4D-generatie en reconstructie via ontkoppelde LoRA-controle
One4D: Unified 4D Generation and Reconstruction via Decoupled LoRA Control
November 24, 2025
Auteurs: Zhenxing Mi, Yuxin Wang, Dan Xu
cs.AI
Samenvatting
Wij presenteren One4D, een uniform raamwerk voor 4D-generatie en -reconstructie dat dynamische 4D-inhoud produceert als gesynchroniseerde RGB-frames en pointmaps. Door variërende sparse conditieframes consistent te verwerken via een Uniform Masked Conditioning (UMC)-mechanisme, kan One4D naadloos schakelen tussen 4D-generatie vanuit een enkele afbeelding, 4D-reconstructie vanuit een volledige video, en gemengde generatie en reconstructie vanuit sparse frames. Ons raamwerk past een krachtig videogeneratiemodel aan voor gezamenlijke RGB- en pointmap-generatie, met zorgvuldig ontworpen netwerkarchitecturen. De veelgebruikte diffusie-finetuningstrategieën voor depthmap- of pointmap-reconstructie falen vaak bij gezamenlijke RGB- en pointmap-generatie, waarbij het basismodel voor video snel degradeert. Om deze uitdaging aan te pakken, introduceren we Decoupled LoRA Control (DLC), dat twee modalitiespecifieke LoRA-adapters gebruikt om ontkoelde rekenbranches voor RGB-frames en pointmaps te vormen, verbonden door lichtgewicht, nul-geïnitialiseerde controlelinks die geleidelijk onderlinge pixelconsistentie leren. Getraind op een mix van synthetische en echte 4D-datasets met bescheiden rekenbudgetten, produceert One4D hoogwaardige RGB-frames en nauwkeurige pointmaps in zowel generatie- als reconstructietaken. Dit werk vertegenwoordigt een stap in de richting van algemene, hoogwaardige op geometrie gebaseerde 4D-wereldmodellering met behulp van videodiffusiemodellen. Projectpagina: https://mizhenxing.github.io/One4D
English
We present One4D, a unified framework for 4D generation and reconstruction that produces dynamic 4D content as synchronized RGB frames and pointmaps. By consistently handling varying sparsities of conditioning frames through a Unified Masked Conditioning (UMC) mechanism, One4D can seamlessly transition between 4D generation from a single image, 4D reconstruction from a full video, and mixed generation and reconstruction from sparse frames. Our framework adapts a powerful video generation model for joint RGB and pointmap generation, with carefully designed network architectures. The commonly used diffusion finetuning strategies for depthmap or pointmap reconstruction often fail on joint RGB and pointmap generation, quickly degrading the base video model. To address this challenge, we introduce Decoupled LoRA Control (DLC), which employs two modality-specific LoRA adapters to form decoupled computation branches for RGB frames and pointmaps, connected by lightweight, zero-initialized control links that gradually learn mutual pixel-level consistency. Trained on a mixture of synthetic and real 4D datasets under modest computational budgets, One4D produces high-quality RGB frames and accurate pointmaps across both generation and reconstruction tasks. This work represents a step toward general, high-quality geometry-based 4D world modeling using video diffusion models. Project page: https://mizhenxing.github.io/One4D