UniLumos : Relamping Rapide et Unifié d'Images et de Vidéos avec une Rétroaction Physiquement Plausible
UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback
November 3, 2025
papers.authors: Ropeway Liu, Hangjie Yuan, Bo Dong, Jiazheng Xing, Jinwang Wang, Rui Zhao, Yan Xing, Weihua Chen, Fan Wang
cs.AI
papers.abstract
La relumination est une tâche cruciale possédant à la fois une demande pratique et une valeur artistique. Les modèles de diffusion récents ont montré un fort potentiel en permettant des effets d'éclairage riches et contrôlables. Cependant, comme ils sont généralement optimisés dans un espace latent sémantique, où la proximité ne garantit pas l'exactitude physique dans l'espace visuel, ils produisent souvent des résultats irréalistes, tels que des reflets surexposés, des ombres désalignées et des occlusions incorrectes. Nous abordons ce problème avec UniLumos, un cadre de relumination unifié pour les images et les vidéos qui intègre un retour de géométrie dans l'espace RGB au sein d'une architecture de flow matching. En supervisant le modèle avec des cartes de profondeur et de normales extraites de ses sorties, nous alignons explicitement les effets d'éclairage avec la structure de la scène, améliorant ainsi la plausibilité physique. Néanmoins, ce retour d'information nécessite des sorties de haute qualité pour la supervision dans l'espace visuel, ce qui rend le débruitage multi-étapes standard très coûteux en calcul. Pour atténuer cela, nous utilisons l'apprentissage par cohérence de chemin, permettant à la supervision de rester efficace même dans des régimes d'entraînement à faible nombre d'étapes. Pour permettre un contrôle et une supervision fins de la relumination, nous concevons un protocole d'annotation structuré à six dimensions capturant les attributs fondamentaux de l'illumination. Sur cette base, nous proposons LumosBench, un benchmark de niveau attribut désentrelacé qui évalue la contrôlabilité de l'éclairage via de grands modèles vision-langage, permettant une évaluation automatique et interprétable de la précision de la relumination selon des dimensions individuelles. Des expériences approfondies démontrent qu'UniLumos atteint une qualité de relumination à l'état de l'art avec une cohérence physique significativement améliorée, tout en offrant une accélération par 20 pour la relumination d'images et de vidéos. Le code est disponible à l'adresse https://github.com/alibaba-damo-academy/Lumos-Custom.
English
Relighting is a crucial task with both practical demand and artistic value,
and recent diffusion models have shown strong potential by enabling rich and
controllable lighting effects. However, as they are typically optimized in
semantic latent space, where proximity does not guarantee physical correctness
in visual space, they often produce unrealistic results, such as overexposed
highlights, misaligned shadows, and incorrect occlusions. We address this with
UniLumos, a unified relighting framework for both images and videos that brings
RGB-space geometry feedback into a flow matching backbone. By supervising the
model with depth and normal maps extracted from its outputs, we explicitly
align lighting effects with the scene structure, enhancing physical
plausibility. Nevertheless, this feedback requires high-quality outputs for
supervision in visual space, making standard multi-step denoising
computationally expensive. To mitigate this, we employ path consistency
learning, allowing supervision to remain effective even under few-step training
regimes. To enable fine-grained relighting control and supervision, we design a
structured six-dimensional annotation protocol capturing core illumination
attributes. Building upon this, we propose LumosBench, a disentangled
attribute-level benchmark that evaluates lighting controllability via large
vision-language models, enabling automatic and interpretable assessment of
relighting precision across individual dimensions. Extensive experiments
demonstrate that UniLumos achieves state-of-the-art relighting quality with
significantly improved physical consistency, while delivering a 20x speedup for
both image and video relighting. Code is available at
https://github.com/alibaba-damo-academy/Lumos-Custom.