Relit-LiVE: Reiluminación de video mediante el aprendizaje conjunto del video del entorno

Resumen

Avances recientes han demostrado que los modelos de difusión de video a gran escala pueden ser reutilizados como renderizadores neurales descomponiendo primero los videos en representaciones intrínsecas de la escena y luego realizando renderizado directo bajo iluminación novedosa. Aunque prometedor, este paradigma se basa fundamentalmente en una descomposición intrínseca precisa, la cual sigue siendo altamente poco fiable para videos del mundo real y a menudo conduce a apariencias distorsionadas, materiales rotos y artefactos temporales acumulados durante el reiluminado. En este trabajo, presentamos Relit-LiVE, un novedoso marco de reiluminación de video que produce resultados físicamente consistentes y temporalmente estables sin requerir conocimiento previo de la pose de la cámara. Nuestra idea clave es introducir explícitamente imágenes de referencia en bruto en el proceso de renderizado, permitiendo que el modelo recupere señales críticas de la escena que inevitablemente se pierden o corrompen en las representaciones intrínsecas. Además, proponemos una novedosa formulación de predicción de video de entorno que genera simultáneamente videos reiluminados y mapas de entorno por fotograma alineados con cada punto de vista de la cámara en un único proceso de difusión. Esta predicción conjunta impone un fuerte alineamiento geométrico-iluminación y soporta de forma natural iluminación dinámica y movimiento de cámara, mejorando significativamente la consistencia física en el reiluminado de video mientras se relaja el requisito de conocer la pose de la cámara por fotograma. Experimentos exhaustivos demuestran que Relit-LiVE supera consistentemente a los métodos de reiluminado de video y renderizado neural de última generación en benchmarks sintéticos y del mundo real. Más allá del reiluminado, nuestro marco soporta de forma natural una amplia gama de aplicaciones posteriores, incluyendo renderizado a nivel de escena, edición de materiales, inserción de objetos y reiluminado de video en flujo continuo. El proyecto está disponible en https://github.com/zhuxing0/Relit-LiVE.

English

Recent advances have shown that large-scale video diffusion models can be repurposed as neural renderers by first decomposing videos into intrinsic scene representations and then performing forward rendering under novel illumination. While promising, this paradigm fundamentally relies on accurate intrinsic decomposition, which remains highly unreliable for real-world videos and often leads to distorted appearances, broken materials, and accumulated temporal artifacts during relighting. In this work, we present Relit-LiVE, a novel video relighting framework that produces physically consistent, temporally stable results without requiring prior knowledge of camera pose. Our key insight is to explicitly introduce raw reference images into the rendering process, enabling the model to recover critical scene cues that are inevitably lost or corrupted in intrinsic representations. Furthermore, we propose a novel environment video prediction formulation that simultaneously generates relit videos and per-frame environment maps aligned with each camera viewpoint in a single diffusion process. This joint prediction enforces strong geometric-illumination alignment and naturally supports dynamic lighting and camera motion, significantly improving physical consistency in video relighting while easing the requirement of known per-frame camera pose. Extensive experiments demonstrate that Relit-LiVE consistently outperforms state-of-the-art video relighting and neural rendering methods across synthetic and real-world benchmarks. Beyond relighting, our framework naturally supports a wide range of downstream applications, including scene-level rendering, material editing, object insertion, and streaming video relighting. The Project is available at https://github.com/zhuxing0/Relit-LiVE.

Relit-LiVE: Reiluminación de video mediante el aprendizaje conjunto del video del entorno

Relit-LiVE: Relight Video by Jointly Learning Environment Video

Resumen

Support