Light-X: 카메라 및 조명 제어를 통한 생성적 4D 비디오 렌더링
Light-X: Generative 4D Video Rendering with Camera and Illumination Control
December 4, 2025
저자: Tianqi Liu, Zhaoxi Chen, Zihao Huang, Shaocong Xu, Saining Zhang, Chongjie Ye, Bohan Li, Zhiguo Cao, Wei Li, Hao Zhao, Ziwei Liu
cs.AI
초록
조명 제어의 최근 발전은 이미지 기반 방법을 비디오로 확장하고 있으나, 여전히 조명 충실도와 시간적 일관성 사이의 트레이드오프에 직면하고 있습니다. 리라이팅을 넘어 실세계 장면의 생성적 모델링을 위한 핵심 단계는 카메라 궤적과 조명의 통합 제어입니다. 시각적 역동성은 본질적으로 기하학과 조명에 의해 형성되기 때문입니다. 이를 위해 우리는 단안 비디오에서 시점과 조명 제어가 가능한 조정 가능한 렌더링을 제공하는 비디오 생성 프레임워크인 Light-X를 제안합니다. 1) 우리는 기하학과 조명 신호를 분리하는 디커플링 설계를 제안합니다: 기하학과 운동은 사용자 정의 카메라 궤적을 따라 투영된 동적 포인트 클라우드를 통해捕捉되며, 조명 신호는 동일한 기하학에 일관되게 투영된 리릿 프레임에 의해 제공됩니다. 이러한 명시적이고 세분화된 신호는 효과적인 분리를 가능하게 하고 고품질 조명을 유도합니다. 2) paired 다중 시점 및 다중 조명 비디오 데이터의 부족을 해결하기 위해, 우리는 역매핑을 통한 degradation 기반 파이프라인인 Light-Syn을 소개합니다. 이는 실제 단안 영상으로부터 훈련 쌍을 합성합니다. 이 전략은 정적, 동적 및 AI 생성 장면을 포함하는 데이터셋을 생성하여 강력한 훈련을 보장합니다. 폭넓은 실험을 통해 Light-X가 통합 카메라-조명 제어에서 기준 방법들을 능가하며, 텍스트 및 배경 조건 설정 하에서 기존 비디오 리라이팅 방법들보다 우수함을 입증합니다.
English
Recent advances in illumination control extend image-based methods to video, yet still facing a trade-off between lighting fidelity and temporal consistency. Moving beyond relighting, a key step toward generative modeling of real-world scenes is the joint control of camera trajectory and illumination, since visual dynamics are inherently shaped by both geometry and lighting. To this end, we present Light-X, a video generation framework that enables controllable rendering from monocular videos with both viewpoint and illumination control. 1) We propose a disentangled design that decouples geometry and lighting signals: geometry and motion are captured via dynamic point clouds projected along user-defined camera trajectories, while illumination cues are provided by a relit frame consistently projected into the same geometry. These explicit, fine-grained cues enable effective disentanglement and guide high-quality illumination. 2) To address the lack of paired multi-view and multi-illumination videos, we introduce Light-Syn, a degradation-based pipeline with inverse-mapping that synthesizes training pairs from in-the-wild monocular footage. This strategy yields a dataset covering static, dynamic, and AI-generated scenes, ensuring robust training. Extensive experiments show that Light-X outperforms baseline methods in joint camera-illumination control and surpasses prior video relighting methods under both text- and background-conditioned settings.