ChatPaper.aiChatPaper

One4D: Единая 4D-генерация и реконструкция через развязанное управление LoRA

One4D: Unified 4D Generation and Reconstruction via Decoupled LoRA Control

November 24, 2025
Авторы: Zhenxing Mi, Yuxin Wang, Dan Xu
cs.AI

Аннотация

Мы представляем One4D — унифицированную систему для генерации и реконструкции 4D-контента, которая создает динамические 4D-данные в виде синхронизированных RGB-кадров и карт точек. Благодаря единому механизму маскированного кондиционирования (Unified Masked Conditioning, UMC), который последовательно обрабатывает различную степень разреженности входных кадров, One4D обеспечивает плавный переход между генерацией 4D из одного изображения, реконструкцией 4D из полного видео, а также смешанной генерацией и реконструкцией по разреженным кадрам. Наша система адаптирует мощную модель генерации видео для совместного создания RGB и карт точек с тщательно продуманной архитектурой сети. Стандартные стратегии тонкой настройки диффузионных моделей для реконструкции карт глубины или точек часто оказываются неэффективными при совместной генерации RGB и карт точек, быстро ухудшая качество базовой видео-модели. Для решения этой проблемы мы предлагаем метод Decoupled LoRA Control (DLC), который использует два модально-специфичных LoRA-адаптера для формирования разделенных вычислительных ветвей для RGB-кадров и карт точек, соединенных легковесными, инициализированными нулями управляющими связями, которые постепенно обучаются взаимной пиксельной согласованности. Обученная на смеси синтетических и реальных 4D-данных при умеренных вычислительных затратах, One4D генерирует высококачественные RGB-кадры и точные карты точек как в задачах генерации, так и реконструкции. Данная работа представляет собой шаг в сторону создания общих, высококачественных геометрически-ориентированных моделей 4D-мира на основе видео-диффузионных моделей. Страница проекта: https://mizhenxing.github.io/One4D
English
We present One4D, a unified framework for 4D generation and reconstruction that produces dynamic 4D content as synchronized RGB frames and pointmaps. By consistently handling varying sparsities of conditioning frames through a Unified Masked Conditioning (UMC) mechanism, One4D can seamlessly transition between 4D generation from a single image, 4D reconstruction from a full video, and mixed generation and reconstruction from sparse frames. Our framework adapts a powerful video generation model for joint RGB and pointmap generation, with carefully designed network architectures. The commonly used diffusion finetuning strategies for depthmap or pointmap reconstruction often fail on joint RGB and pointmap generation, quickly degrading the base video model. To address this challenge, we introduce Decoupled LoRA Control (DLC), which employs two modality-specific LoRA adapters to form decoupled computation branches for RGB frames and pointmaps, connected by lightweight, zero-initialized control links that gradually learn mutual pixel-level consistency. Trained on a mixture of synthetic and real 4D datasets under modest computational budgets, One4D produces high-quality RGB frames and accurate pointmaps across both generation and reconstruction tasks. This work represents a step toward general, high-quality geometry-based 4D world modeling using video diffusion models. Project page: https://mizhenxing.github.io/One4D
PDF132February 7, 2026