ChatPaper.aiChatPaper

UniLumos: Reiluminación Rápida y Unificada de Imágenes y Vídeo con Retroalimentación Físicamente Plausible

UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback

November 3, 2025
Autores: Ropeway Liu, Hangjie Yuan, Bo Dong, Jiazheng Xing, Jinwang Wang, Rui Zhao, Yan Xing, Weihua Chen, Fan Wang
cs.AI

Resumen

La reluminación es una tarea crucial con demanda práctica y valor artístico, y los recientes modelos de difusión han mostrado un gran potencial al permitir efectos de iluminación ricos y controlables. Sin embargo, como generalmente se optimizan en un espacio latente semántico, donde la proximidad no garantiza la corrección física en el espacio visual, a menudo producen resultados poco realistas, como reflejos sobreexpuestos, sombras desalineadas y oclusiones incorrectas. Abordamos este problema con UniLumos, un marco unificado de reluminación para imágenes y videos que incorpora retroalimentación geométrica en el espacio RGB en un backbone de flujo coincidente. Al supervisar el modelo con mapas de profundidad y normales extraídos de sus salidas, alineamos explícitamente los efectos de iluminación con la estructura de la escena, mejorando la plausibilidad física. No obstante, esta retroalimentación requiere salidas de alta calidad para la supervisión en el espacio visual, lo que hace que la eliminación de ruido multi-paso estándar sea computacionalmente costosa. Para mitigar esto, empleamos el aprendizaje de consistencia de trayectoria, permitiendo que la supervisión siga siendo efectiva incluso bajo regímenes de entrenamiento con pocos pasos. Para permitir un control y supervisión detallados de la reluminación, diseñamos un protocolo de anotación estructurado de seis dimensiones que captura los atributos fundamentales de la iluminación. Sobre esta base, proponemos LumosBench, un benchmark desacoplado a nivel de atributos que evalúa la capacidad de control de la iluminación mediante grandes modelos de visión y lenguaje, permitiendo una evaluación automática e interpretable de la precisión de la reluminación en dimensiones individuales. Experimentos exhaustivos demuestran que UniLumos logra una calidad de reluminación de vanguardia con una consistencia física significativamente mejorada, mientras ofrece una aceleración de 20x tanto para la reluminación de imágenes como de videos. El código está disponible en https://github.com/alibaba-damo-academy/Lumos-Custom.
English
Relighting is a crucial task with both practical demand and artistic value, and recent diffusion models have shown strong potential by enabling rich and controllable lighting effects. However, as they are typically optimized in semantic latent space, where proximity does not guarantee physical correctness in visual space, they often produce unrealistic results, such as overexposed highlights, misaligned shadows, and incorrect occlusions. We address this with UniLumos, a unified relighting framework for both images and videos that brings RGB-space geometry feedback into a flow matching backbone. By supervising the model with depth and normal maps extracted from its outputs, we explicitly align lighting effects with the scene structure, enhancing physical plausibility. Nevertheless, this feedback requires high-quality outputs for supervision in visual space, making standard multi-step denoising computationally expensive. To mitigate this, we employ path consistency learning, allowing supervision to remain effective even under few-step training regimes. To enable fine-grained relighting control and supervision, we design a structured six-dimensional annotation protocol capturing core illumination attributes. Building upon this, we propose LumosBench, a disentangled attribute-level benchmark that evaluates lighting controllability via large vision-language models, enabling automatic and interpretable assessment of relighting precision across individual dimensions. Extensive experiments demonstrate that UniLumos achieves state-of-the-art relighting quality with significantly improved physical consistency, while delivering a 20x speedup for both image and video relighting. Code is available at https://github.com/alibaba-damo-academy/Lumos-Custom.
PDF351January 19, 2026