One4D: Vereinheitlichte 4D-Generierung und -Rekonstruktion durch entkoppelte LoRA-Steuerung
One4D: Unified 4D Generation and Reconstruction via Decoupled LoRA Control
November 24, 2025
papers.authors: Zhenxing Mi, Yuxin Wang, Dan Xu
cs.AI
papers.abstract
Wir stellen One4D vor, ein einheitliches Framework für die 4D-Generierung und -Rekonstruktion, das dynamische 4D-Inhalte als synchronisierte RGB-Frames und Pointmaps erzeugt. Durch die konsistente Handhabung variierender Sparsity der Konditionierungsframes mittels eines Unified Masked Conditioning (UMC)-Mechanismus kann One4D nahtlos zwischen 4D-Generierung aus einem Einzelbild, 4D-Rekonstruktion aus einem vollständigen Video und gemischter Generierung und Rekonstruktion aus spärlichen Frames wechseln. Unser Framework adaptiert ein leistungsstarkes Videogenerierungsmodell für die gemeinsame Generierung von RGB- und Pointmap-Daten, mit sorgfältig gestalteten Netzwerkarchitekturen. Die häufig verwendeten Diffusion-Finetuning-Strategien für Depthmap- oder Pointmap-Rekonstruktion versagen oft bei der gemeinsamen Generierung von RGB- und Pointmap-Daten, da sie das Basis-Videomodell schnell verschlechtern. Um diese Herausforderung zu bewältigen, führen wir Decoupled LoRA Control (DLC) ein, das zwei modalspezifische LoRA-Adapter verwendet, um entkoppelte Rechenzweige für RGB-Frames und Pointmaps zu bilden. Diese sind durch leichtgewichtige, null-initialisierte Steuerungslinks verbunden, die schrittweise eine gegenseitige pixelweise Konsistenz erlernen. One4D, trainiert mit einer Mischung aus synthetischen und realen 4D-Datensätzen unter moderaten Rechenbudgets, erzeugt hochwertige RGB-Frames und präzise Pointmaps in sowohl Generierungs- als auch Rekonstruktionsaufgaben. Diese Arbeit stellt einen Schritt in Richtung einer allgemeinen, hochwertigen geometriebasierten 4D-Weltmodellierung mit Videodiffusionsmodellen dar. Projektseite: https://mizhenxing.github.io/One4D
English
We present One4D, a unified framework for 4D generation and reconstruction that produces dynamic 4D content as synchronized RGB frames and pointmaps. By consistently handling varying sparsities of conditioning frames through a Unified Masked Conditioning (UMC) mechanism, One4D can seamlessly transition between 4D generation from a single image, 4D reconstruction from a full video, and mixed generation and reconstruction from sparse frames. Our framework adapts a powerful video generation model for joint RGB and pointmap generation, with carefully designed network architectures. The commonly used diffusion finetuning strategies for depthmap or pointmap reconstruction often fail on joint RGB and pointmap generation, quickly degrading the base video model. To address this challenge, we introduce Decoupled LoRA Control (DLC), which employs two modality-specific LoRA adapters to form decoupled computation branches for RGB frames and pointmaps, connected by lightweight, zero-initialized control links that gradually learn mutual pixel-level consistency. Trained on a mixture of synthetic and real 4D datasets under modest computational budgets, One4D produces high-quality RGB frames and accurate pointmaps across both generation and reconstruction tasks. This work represents a step toward general, high-quality geometry-based 4D world modeling using video diffusion models. Project page: https://mizhenxing.github.io/One4D