ChatPaper.aiChatPaper

Light-X : Rendu vidéo 4D génératif avec contrôle de la caméra et de l'éclairage

Light-X: Generative 4D Video Rendering with Camera and Illumination Control

December 4, 2025
Auteurs: Tianqi Liu, Zhaoxi Chen, Zihao Huang, Shaocong Xu, Saining Zhang, Chongjie Ye, Bohan Li, Zhiguo Cao, Wei Li, Hao Zhao, Ziwei Liu
cs.AI

Résumé

Les progrès récents en contrôle d'éclairage étendent les méthodes basées sur l'image à la vidéo, mais doivent encore faire face à un compromis entre la fidélité lumineuse et la cohérence temporelle. Au-delà du rééclairage, une étape clé vers la modélisation générative de scènes réalistes est le contrôle conjoint de la trajectoire de la caméra et de l'éclairage, puisque la dynamique visuelle est intrinsèquement façonnée à la fois par la géométrie et l'illumination. Dans cette optique, nous présentons Light-X, un cadre de génération vidéo permettant un rendu contrôlable à partir de vidéos monoculaires avec contrôle simultané du point de vue et de l'éclairage. 1) Nous proposons une conception désentrelacée qui découple les signaux géométriques et lumineux : la géométrie et le mouvement sont capturés via des nuages de points dynamiques projetés le long de trajectoires de caméra définies par l'utilisateur, tandis que les indices d'éclairage sont fournis par une image rééclairée projetée de manière cohérente dans la même géométrie. Ces indices explicites et granulaires permettent un désentrelacement efficace et guident un éclairage de haute qualité. 2) Pour pallier le manque de vidéos multivues et multi-éclairages appariées, nous introduisons Light-Syn, un pipeline basé sur la dégradation avec mapping inverse qui synthétise des paires d'apprentissage à partir de séquences monoculaires non contraintes. Cette stratégie produit un jeu de données couvrant des scènes statiques, dynamiques et générées par IA, garantissant un apprentissage robuste. Des expériences approfondies montrent que Light-X surpasse les méthodes de référence en contrôle conjoint caméra-éclairage et dépasse les méthodes de rééclairage vidéo antérieures dans des configurations conditionnées par du texte ou par l'arrière-plan.
English
Recent advances in illumination control extend image-based methods to video, yet still facing a trade-off between lighting fidelity and temporal consistency. Moving beyond relighting, a key step toward generative modeling of real-world scenes is the joint control of camera trajectory and illumination, since visual dynamics are inherently shaped by both geometry and lighting. To this end, we present Light-X, a video generation framework that enables controllable rendering from monocular videos with both viewpoint and illumination control. 1) We propose a disentangled design that decouples geometry and lighting signals: geometry and motion are captured via dynamic point clouds projected along user-defined camera trajectories, while illumination cues are provided by a relit frame consistently projected into the same geometry. These explicit, fine-grained cues enable effective disentanglement and guide high-quality illumination. 2) To address the lack of paired multi-view and multi-illumination videos, we introduce Light-Syn, a degradation-based pipeline with inverse-mapping that synthesizes training pairs from in-the-wild monocular footage. This strategy yields a dataset covering static, dynamic, and AI-generated scenes, ensuring robust training. Extensive experiments show that Light-X outperforms baseline methods in joint camera-illumination control and surpasses prior video relighting methods under both text- and background-conditioned settings.
PDF112April 2, 2026