UniLumos: Snelle en Uniforme Herbelichting van Beelden en Video met Fysisch Plausibele Feedback
UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback
November 3, 2025
Auteurs: Ropeway Liu, Hangjie Yuan, Bo Dong, Jiazheng Xing, Jinwang Wang, Rui Zhao, Yan Xing, Weihua Chen, Fan Wang
cs.AI
Samenvatting
Relighting is een cruciale taak met zowel praktische vraag als artistieke waarde, en recente diffusiemodellen hebben sterke potentie getoond door rijke en controleerbare belichtingseffecten mogelijk te maken. Omdat ze echter typisch geoptimaliseerd worden in een semantische latente ruimte, waar nabijheid geen fysieke correctheid in de visuele ruimte garandeert, produceren ze vaak onrealistische resultaten, zoals overbelichte highlights, verkeerd uitgelijnde schaduwen en incorrecte occlusies. Wij pakken dit aan met UniLumos, een uniform raamwerk voor relighting van zowel afbeeldingen als video's dat RGB-ruimte geometrie-feedback integreert in een flow matching backbone. Door het model te superviseren met diepte- en normaalvectorkaarten geëxtraheerd uit zijn outputs, aligneren we belichtingseffecten expliciet met de scènestructuur, wat de fysieke geloofwaardigheid verbetert. Deze feedback vereist echter hoogkwalitatieve outputs voor supervisie in de visuele ruimte, wat standaard multi-step denoising computationeel kostbaar maakt. Om dit te verlichten, gebruiken we path consistency learning, waardoor supervisie effectief blijft zelfs onder few-step trainingsregimes. Om fijnmazige relighting-controle en -supervisie mogelijk te maken, ontwerpen we een gestructureerd zesdimensionaal annotatieprotocol dat kernilluminatie-attributen vastlegt. Hierop voortbouwend stellen we LumosBench voor, een gedisentangleerd attribuutniveau benchmark die belichtingscontroleerbaarheid evalueert via grote vision-language modellen, waardoor een automatische en interpreteerbare beoordeling van relighting-precisie over individuele dimensies mogelijk wordt. Uitgebreide experimenten tonen aan dat UniLumos state-of-the-art relighting-kwaliteit bereikt met aanzienlijk verbeterde fysieke consistentie, terwijl het een 20x snelheidswinst oplevert voor zowel afbeelding- als videorelighting. Code is beschikbaar op https://github.com/alibaba-damo-academy/Lumos-Custom.
English
Relighting is a crucial task with both practical demand and artistic value,
and recent diffusion models have shown strong potential by enabling rich and
controllable lighting effects. However, as they are typically optimized in
semantic latent space, where proximity does not guarantee physical correctness
in visual space, they often produce unrealistic results, such as overexposed
highlights, misaligned shadows, and incorrect occlusions. We address this with
UniLumos, a unified relighting framework for both images and videos that brings
RGB-space geometry feedback into a flow matching backbone. By supervising the
model with depth and normal maps extracted from its outputs, we explicitly
align lighting effects with the scene structure, enhancing physical
plausibility. Nevertheless, this feedback requires high-quality outputs for
supervision in visual space, making standard multi-step denoising
computationally expensive. To mitigate this, we employ path consistency
learning, allowing supervision to remain effective even under few-step training
regimes. To enable fine-grained relighting control and supervision, we design a
structured six-dimensional annotation protocol capturing core illumination
attributes. Building upon this, we propose LumosBench, a disentangled
attribute-level benchmark that evaluates lighting controllability via large
vision-language models, enabling automatic and interpretable assessment of
relighting precision across individual dimensions. Extensive experiments
demonstrate that UniLumos achieves state-of-the-art relighting quality with
significantly improved physical consistency, while delivering a 20x speedup for
both image and video relighting. Code is available at
https://github.com/alibaba-damo-academy/Lumos-Custom.