ChatPaper.aiChatPaper

One4D: 분리된 LoRA 제어를 통한 통합 4D 생성 및 재구성

One4D: Unified 4D Generation and Reconstruction via Decoupled LoRA Control

November 24, 2025
저자: Zhenxing Mi, Yuxin Wang, Dan Xu
cs.AI

초록

본 논문에서는 동적인 4D 콘텐츠를 동기화된 RGB 프레임과 포인트맵으로 생성하는 통합 4D 생성 및 복원 프레임워크인 One4D를 제안합니다. 통합 마스크 조건화(UMC) 메커니즘을 통해 조건 프레임의 다양한 희소성을 일관되게 처리함으로써, One4D는 단일 이미지로부터의 4D 생성, 전체 비디오로부터의 4D 복원, 그리고 희소 프레임으로부터의 혼합 생성 및 복원 작업 사이에 원활하게 전환될 수 있습니다. 우리의 프레임워크는 강력한 비디오 생성 모델을 RGB와 포인트맵의 결합 생성을 위해 적용하며, 신중하게 설계된 네트워크 아키텍처를 갖추고 있습니다. 깊이맵 또는 포인트맵 복원을 위해 일반적으로 사용되는 디퓨전 미세 조정 전략은 RGB와 포인트맵의 결합 생성 작업에서 종종 실패하며, 기본 비디오 모델의 성능을 빠르게 저하시킵니다. 이러한 문제를 해결하기 위해 우리는 분리된 LoRA 제어(DLC)를 도입했습니다. 이는 두 개의 모달리티별 LoRA 어댑터를 사용하여 RGB 프레임과 포인트맵을 위한 분리된 계산 브랜치를 구성하고, 경량의 영초기화 제어 링크로 연결되어 서로 간의 픽셀 수준 일관성을 점진적으로 학습합니다. 합성 및 실제 4D 데이터셋의 혼합으로 적절한 계산 예산 하에 학습된 One4D는 생성 및 복원 작업 모두에서 높은 품질의 RGB 프레임과 정확한 포인트맵을 생성합니다. 이 연구는 비디오 디퓨전 모델을 사용한 일반적이고 고품질의 기하학 기반 4D 세계 모델링을 향한 한 걸음을 나타냅니다. 프로젝트 페이지: https://mizhenxing.github.io/One4D
English
We present One4D, a unified framework for 4D generation and reconstruction that produces dynamic 4D content as synchronized RGB frames and pointmaps. By consistently handling varying sparsities of conditioning frames through a Unified Masked Conditioning (UMC) mechanism, One4D can seamlessly transition between 4D generation from a single image, 4D reconstruction from a full video, and mixed generation and reconstruction from sparse frames. Our framework adapts a powerful video generation model for joint RGB and pointmap generation, with carefully designed network architectures. The commonly used diffusion finetuning strategies for depthmap or pointmap reconstruction often fail on joint RGB and pointmap generation, quickly degrading the base video model. To address this challenge, we introduce Decoupled LoRA Control (DLC), which employs two modality-specific LoRA adapters to form decoupled computation branches for RGB frames and pointmaps, connected by lightweight, zero-initialized control links that gradually learn mutual pixel-level consistency. Trained on a mixture of synthetic and real 4D datasets under modest computational budgets, One4D produces high-quality RGB frames and accurate pointmaps across both generation and reconstruction tasks. This work represents a step toward general, high-quality geometry-based 4D world modeling using video diffusion models. Project page: https://mizhenxing.github.io/One4D
PDF132February 7, 2026