Light-X: Renderização Generativa de Vídeo 4D com Controle de Câmera e Iluminação

Resumo

Os recentes avanços no controle de iluminação estendem os métodos baseados em imagem para vídeo, mas ainda enfrentam um compromisso entre fidelidade de iluminação e consistência temporal. Indo além da rerrenderização com nova iluminação, um passo fundamental para a modelagem generativa de cenas do mundo real é o controle conjunto da trajetória da câmara e da iluminação, uma vez que a dinâmica visual é inerentemente moldada tanto pela geometria quanto pela iluminação. Para esse fim, apresentamos o Light-X, uma estrutura de geração de vídeo que permite renderização controlada a partir de vídeos monoculares com controle simultâneo de ponto de vista e iluminação. 1) Propomos um design desacoplado que separa os sinais de geometria e iluminação: a geometria e o movimento são capturados através de nuvens de pontos dinâmicas projetadas ao longo de trajetórias de câmara definidas pelo utilizador, enquanto os indícios de iluminação são fornecidos por um fotograma rerrenderizado com nova iluminação, projetado de forma consistente na mesma geometria. Estas pistas explícitas e de granularidade fina permitem um desacoplamento eficaz e orientam uma iluminação de alta qualidade. 2) Para colmatar a falta de vídeos emparelhados com múltiplas vistas e múltiplas iluminações, introduzimos o Light-Syn, um *pipeline* baseado em degradação com mapeamento inverso que sintetiza pares de treino a partir de filmagens monoculares do mundo real. Esta estratégia produz um conjunto de dados que abrange cenas estáticas, dinâmicas e geradas por IA, garantindo um treino robusto. Experiências extensivas mostram que o Light-X supera os métodos de base no controlo conjunto câmara-iluminação e ultrapassa os métodos anteriores de rerrenderização de vídeo com nova iluminação, tanto em configurações condicionadas por texto como por fundo.

English

Recent advances in illumination control extend image-based methods to video, yet still facing a trade-off between lighting fidelity and temporal consistency. Moving beyond relighting, a key step toward generative modeling of real-world scenes is the joint control of camera trajectory and illumination, since visual dynamics are inherently shaped by both geometry and lighting. To this end, we present Light-X, a video generation framework that enables controllable rendering from monocular videos with both viewpoint and illumination control. 1) We propose a disentangled design that decouples geometry and lighting signals: geometry and motion are captured via dynamic point clouds projected along user-defined camera trajectories, while illumination cues are provided by a relit frame consistently projected into the same geometry. These explicit, fine-grained cues enable effective disentanglement and guide high-quality illumination. 2) To address the lack of paired multi-view and multi-illumination videos, we introduce Light-Syn, a degradation-based pipeline with inverse-mapping that synthesizes training pairs from in-the-wild monocular footage. This strategy yields a dataset covering static, dynamic, and AI-generated scenes, ensuring robust training. Extensive experiments show that Light-X outperforms baseline methods in joint camera-illumination control and surpasses prior video relighting methods under both text- and background-conditioned settings.

Light-X: Renderização Generativa de Vídeo 4D com Controle de Câmera e Iluminação

Light-X: Generative 4D Video Rendering with Camera and Illumination Control

Resumo

Support