ChatPaper.aiChatPaper

UniLumos: Snelle en Uniforme Herbelichting van Beelden en Video met Fysisch Plausibele Feedback

UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback

November 3, 2025
Auteurs: Ropeway Liu, Hangjie Yuan, Bo Dong, Jiazheng Xing, Jinwang Wang, Rui Zhao, Yan Xing, Weihua Chen, Fan Wang
cs.AI

Samenvatting

Relighting is een cruciale taak met zowel praktische vraag als artistieke waarde, en recente diffusiemodellen hebben sterke potentie getoond door rijke en controleerbare belichtingseffecten mogelijk te maken. Omdat ze echter typisch geoptimaliseerd worden in een semantische latente ruimte, waar nabijheid geen fysieke correctheid in de visuele ruimte garandeert, produceren ze vaak onrealistische resultaten, zoals overbelichte highlights, verkeerd uitgelijnde schaduwen en incorrecte occlusies. Wij pakken dit aan met UniLumos, een uniform raamwerk voor relighting van zowel afbeeldingen als video's dat RGB-ruimte geometrie-feedback integreert in een flow matching backbone. Door het model te superviseren met diepte- en normaalvectorkaarten geëxtraheerd uit zijn outputs, aligneren we belichtingseffecten expliciet met de scènestructuur, wat de fysieke geloofwaardigheid verbetert. Deze feedback vereist echter hoogkwalitatieve outputs voor supervisie in de visuele ruimte, wat standaard multi-step denoising computationeel kostbaar maakt. Om dit te verlichten, gebruiken we path consistency learning, waardoor supervisie effectief blijft zelfs onder few-step trainingsregimes. Om fijnmazige relighting-controle en -supervisie mogelijk te maken, ontwerpen we een gestructureerd zesdimensionaal annotatieprotocol dat kernilluminatie-attributen vastlegt. Hierop voortbouwend stellen we LumosBench voor, een gedisentangleerd attribuutniveau benchmark die belichtingscontroleerbaarheid evalueert via grote vision-language modellen, waardoor een automatische en interpreteerbare beoordeling van relighting-precisie over individuele dimensies mogelijk wordt. Uitgebreide experimenten tonen aan dat UniLumos state-of-the-art relighting-kwaliteit bereikt met aanzienlijk verbeterde fysieke consistentie, terwijl het een 20x snelheidswinst oplevert voor zowel afbeelding- als videorelighting. Code is beschikbaar op https://github.com/alibaba-damo-academy/Lumos-Custom.
English
Relighting is a crucial task with both practical demand and artistic value, and recent diffusion models have shown strong potential by enabling rich and controllable lighting effects. However, as they are typically optimized in semantic latent space, where proximity does not guarantee physical correctness in visual space, they often produce unrealistic results, such as overexposed highlights, misaligned shadows, and incorrect occlusions. We address this with UniLumos, a unified relighting framework for both images and videos that brings RGB-space geometry feedback into a flow matching backbone. By supervising the model with depth and normal maps extracted from its outputs, we explicitly align lighting effects with the scene structure, enhancing physical plausibility. Nevertheless, this feedback requires high-quality outputs for supervision in visual space, making standard multi-step denoising computationally expensive. To mitigate this, we employ path consistency learning, allowing supervision to remain effective even under few-step training regimes. To enable fine-grained relighting control and supervision, we design a structured six-dimensional annotation protocol capturing core illumination attributes. Building upon this, we propose LumosBench, a disentangled attribute-level benchmark that evaluates lighting controllability via large vision-language models, enabling automatic and interpretable assessment of relighting precision across individual dimensions. Extensive experiments demonstrate that UniLumos achieves state-of-the-art relighting quality with significantly improved physical consistency, while delivering a 20x speedup for both image and video relighting. Code is available at https://github.com/alibaba-damo-academy/Lumos-Custom.
PDF341December 2, 2025