One4D: Geração e Reconstrução 4D Unificadas via Controle LoRA Desacoplado

Resumo

Apresentamos o One4D, uma estrutura unificada para geração e reconstrução 4D que produz conteúdo 4D dinâmico na forma de frames RGB e mapas de pontos sincronizados. Ao processar de forma consistente as diferentes esparsidades dos frames de condicionamento por meio de um mecanismo de Condicionamento Mascarado Unificado (UMC), o One4D pode transitar perfeitamente entre a geração 4D a partir de uma única imagem, a reconstrução 4D a partir de um vídeo completo e a geração e reconstrução mista a partir de frames esparsos. Nossa estrutura adapta um poderoso modelo de geração de vídeo para a geração conjunta de RGB e mapas de pontos, com arquiteturas de rede cuidadosamente projetadas. As estratégias de *finetuning* por difusão comumente usadas para reconstrução de mapas de profundidade ou de pontos frequentemente falham na geração conjunta de RGB e mapas de pontos, degradando rapidamente o modelo de vídeo base. Para enfrentar este desafio, introduzimos o Controle LoRA Desacoplado (DLC), que emprega dois adaptadores LoRA específicos por modalidade para formar ramos de computação desacoplados para frames RGB e mapas de pontos, conectados por links de controle leves e inicializados com zero que aprendem gradualmente a consistência mútua a nível de pixel. Treinado com uma mistura de conjuntos de dados 4D sintéticos e reais sob orçamentos computacionais modestos, o One4D produz frames RGB de alta qualidade e mapas de pontos precisos em ambas as tarefas de geração e reconstrução. Este trabalho representa um passo em direção à modelagem geral e de alta qualidade do mundo 4D baseada em geometria usando modelos de difusão de vídeo. Página do projeto: https://mizhenxing.github.io/One4D

English

We present One4D, a unified framework for 4D generation and reconstruction that produces dynamic 4D content as synchronized RGB frames and pointmaps. By consistently handling varying sparsities of conditioning frames through a Unified Masked Conditioning (UMC) mechanism, One4D can seamlessly transition between 4D generation from a single image, 4D reconstruction from a full video, and mixed generation and reconstruction from sparse frames. Our framework adapts a powerful video generation model for joint RGB and pointmap generation, with carefully designed network architectures. The commonly used diffusion finetuning strategies for depthmap or pointmap reconstruction often fail on joint RGB and pointmap generation, quickly degrading the base video model. To address this challenge, we introduce Decoupled LoRA Control (DLC), which employs two modality-specific LoRA adapters to form decoupled computation branches for RGB frames and pointmaps, connected by lightweight, zero-initialized control links that gradually learn mutual pixel-level consistency. Trained on a mixture of synthetic and real 4D datasets under modest computational budgets, One4D produces high-quality RGB frames and accurate pointmaps across both generation and reconstruction tasks. This work represents a step toward general, high-quality geometry-based 4D world modeling using video diffusion models. Project page: https://mizhenxing.github.io/One4D

One4D: Geração e Reconstrução 4D Unificadas via Controle LoRA Desacoplado

One4D: Unified 4D Generation and Reconstruction via Decoupled LoRA Control

Resumo

Support