ChatPaper.aiChatPaper

One4D: Generazione e Ricostruzione 4D Unificate tramite Controllo LoRA Disaccoppiato

One4D: Unified 4D Generation and Reconstruction via Decoupled LoRA Control

November 24, 2025
Autori: Zhenxing Mi, Yuxin Wang, Dan Xu
cs.AI

Abstract

Presentiamo One4D, un framework unificato per la generazione e la ricostruzione 4D che produce contenuti dinamici 4D come frame RGB e mappe di punti sincronizzati. Gestendo in modo coerente le diverse sparsità dei frame di condizionamento attraverso un meccanismo di Condizionamento Mascherato Unificato (UMC), One4D può passare senza soluzione di continuità dalla generazione 4D da una singola immagine, alla ricostruzione 4D da un video completo, fino a una combinazione di generazione e ricostruzione da frame sparsi. Il nostro framework adatta un potente modello di generazione video per la generazione congiunta di RGB e mappe di punti, con architetture di rete accuratamente progettate. Le comuni strategie di fine-tuning basate sulla diffusione per la ricostruzione di mappe di profondità o di punti spesso falliscono nella generazione congiunta di RGB e mappe di punti, degradando rapidamente il modello video base. Per affrontare questa sfida, introduciamo il Controllo LoRA Disaccoppiato (DLC), che impiega due adattatori LoRA specifici per modalità per formare rami computazionali disaccoppiati per i frame RGB e le mappe di punti, connessi da legami di controllo leggeri, inizializzati a zero, che apprendono gradualmente una reciproca coerenza a livello di pixel. Addestrato su un mix di dataset 4D sintetici e reali con budget computazionali modesti, One4D produce frame RGB di alta qualità e mappe di punti accurate sia nei compiti di generazione che di ricostruzione. Questo lavoro rappresenta un passo verso la modellazione generale e di alta qualità del mondo 4D basata sulla geometria utilizzando modelli di diffusione video. Pagina del progetto: https://mizhenxing.github.io/One4D
English
We present One4D, a unified framework for 4D generation and reconstruction that produces dynamic 4D content as synchronized RGB frames and pointmaps. By consistently handling varying sparsities of conditioning frames through a Unified Masked Conditioning (UMC) mechanism, One4D can seamlessly transition between 4D generation from a single image, 4D reconstruction from a full video, and mixed generation and reconstruction from sparse frames. Our framework adapts a powerful video generation model for joint RGB and pointmap generation, with carefully designed network architectures. The commonly used diffusion finetuning strategies for depthmap or pointmap reconstruction often fail on joint RGB and pointmap generation, quickly degrading the base video model. To address this challenge, we introduce Decoupled LoRA Control (DLC), which employs two modality-specific LoRA adapters to form decoupled computation branches for RGB frames and pointmaps, connected by lightweight, zero-initialized control links that gradually learn mutual pixel-level consistency. Trained on a mixture of synthetic and real 4D datasets under modest computational budgets, One4D produces high-quality RGB frames and accurate pointmaps across both generation and reconstruction tasks. This work represents a step toward general, high-quality geometry-based 4D world modeling using video diffusion models. Project page: https://mizhenxing.github.io/One4D
PDF102December 3, 2025