One4D:分離型LoRA制御による統合的4D生成・再構築
One4D: Unified 4D Generation and Reconstruction via Decoupled LoRA Control
November 24, 2025
著者: Zhenxing Mi, Yuxin Wang, Dan Xu
cs.AI
要旨
我々は、動的4Dコンテンツを同期したRGBフレームとポイントマップとして生成する、4D生成と再構成の統合フレームワーク「One4D」を提案する。統一マスク条件付け(UMC)機構により条件付けフレームの様々な疎性を一貫して処理することで、One4Dは単一画像からの4D生成、完全動画からの4D再構成、疎フレームからの混合生成・再構成へとシームレスに移行できる。本フレームワークは、強力な動画生成モデルをRGBとポイントマップの共同生成向けに適応させ、ネットワーク構造を注意深く設計している。深度マップやポイントマップ再構成における一般的な拡散モデルファインチューニング手法は、RGBとポイントマップの共同生成では基本の動画モデルを急速に劣化させることが多い。この課題に対処するため、我々は分離LoRA制御(DLC)を導入する。これは、RGBフレームとポイントマップに対してそれぞれ専用のLoRAアダプタを用いて分離された計算分支を形成し、軽量なゼロ初期化制御リンクによって相互の画素レベル一貫性を段階的に学習させるものである。合成および実写の4Dデータセットを混合し、適度な計算予算で学習したOne4Dは、生成タスクと再構成タスクの両方において、高品質なRGBフレームと正確なポイントマップを生成する。本研究は、動画拡散モデルを用いた一般的で高品質な幾何学ベースの4D世界モデリングへの一歩を示すものである。プロジェクトページ: https://mizhenxing.github.io/One4D
English
We present One4D, a unified framework for 4D generation and reconstruction that produces dynamic 4D content as synchronized RGB frames and pointmaps. By consistently handling varying sparsities of conditioning frames through a Unified Masked Conditioning (UMC) mechanism, One4D can seamlessly transition between 4D generation from a single image, 4D reconstruction from a full video, and mixed generation and reconstruction from sparse frames. Our framework adapts a powerful video generation model for joint RGB and pointmap generation, with carefully designed network architectures. The commonly used diffusion finetuning strategies for depthmap or pointmap reconstruction often fail on joint RGB and pointmap generation, quickly degrading the base video model. To address this challenge, we introduce Decoupled LoRA Control (DLC), which employs two modality-specific LoRA adapters to form decoupled computation branches for RGB frames and pointmaps, connected by lightweight, zero-initialized control links that gradually learn mutual pixel-level consistency. Trained on a mixture of synthetic and real 4D datasets under modest computational budgets, One4D produces high-quality RGB frames and accurate pointmaps across both generation and reconstruction tasks. This work represents a step toward general, high-quality geometry-based 4D world modeling using video diffusion models. Project page: https://mizhenxing.github.io/One4D