UniLumos: Schnelle und einheitliche Neuausleuchtung von Bildern und Videos mit physikalisch plausiblen Rückmeldungen
UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback
November 3, 2025
papers.authors: Ropeway Liu, Hangjie Yuan, Bo Dong, Jiazheng Xing, Jinwang Wang, Rui Zhao, Yan Xing, Weihua Chen, Fan Wang
cs.AI
papers.abstract
Relighting ist eine entscheidende Aufgabe mit sowohl praktischem Bedarf als auch künstlerischem Wert, und neuere Diffusionsmodelle haben durch die Ermöglichung vielfältiger und steuerbarer Beleuchtungseffekte großes Potenzial gezeigt. Da sie jedoch typischerweise im semantischen Latent Space optimiert werden, wo räumliche Nähe keine physikalische Korrektheit im visuellen Raum garantiert, erzeugen sie oft unrealistische Ergebnisse wie überbelichtete Glanzlichter, falsch ausgerichtete Schatten und inkorrekte Okklusionen. Wir adressieren dies mit UniLumos, einem einheitlichen Relighting-Framework für Bilder und Videos, das RGB-Raum-Geometrie-Feedback in ein Flow-Matching-Backbone integriert. Indem wir das Modell mit Tiefen- und Normalenmaps supervidiieren, die aus seinen Ausgaben extrahiert werden, alignieren wir Beleuchtungseffekte explizit mit der Szenenstruktur und verbessern so die physikalische Plausibilität. Dieses Feedback erfordert jedoch hochwertige Ausgaben für die Supervision im visuellen Raum, was standardmäßige Mehrschritt-Entrauschung rechenintensiv macht. Um dies zu mildern, setzen wir Path-Consistency-Learning ein, das eine wirksame Supervision selbst bei Trainingsregimen mit wenigen Schritten ermöglicht. Um feinkörnige Relighting-Steuerung und -Supervision zu ermöglichen, entwerfen wir ein strukturiertes sechsdimensionales Annotationsprotokoll, das Kernbeleuchtungsattribute erfasst. Darauf aufbauend schlagen wir LumosBench vor, einen entflochtenen attributbasierten Benchmark, der die Beleuchtungskontrollierbarkeit via großer Vision-Language-Modelle evaluiert und eine automatische und interpretierbare Bewertung der Relighting-Präzision über einzelne Dimensionen hinweg ermöglicht. Umfangreiche Experimente zeigen, dass UniLumos state-of-the-art Relighting-Qualität bei deutlich verbesserter physikalischer Konsistenz erreicht und gleichzeitig eine 20-fache Beschleunigung für Bild- und Video-Relighting liefert. Code ist verfügbar unter https://github.com/alibaba-damo-academy/Lumos-Custom.
English
Relighting is a crucial task with both practical demand and artistic value,
and recent diffusion models have shown strong potential by enabling rich and
controllable lighting effects. However, as they are typically optimized in
semantic latent space, where proximity does not guarantee physical correctness
in visual space, they often produce unrealistic results, such as overexposed
highlights, misaligned shadows, and incorrect occlusions. We address this with
UniLumos, a unified relighting framework for both images and videos that brings
RGB-space geometry feedback into a flow matching backbone. By supervising the
model with depth and normal maps extracted from its outputs, we explicitly
align lighting effects with the scene structure, enhancing physical
plausibility. Nevertheless, this feedback requires high-quality outputs for
supervision in visual space, making standard multi-step denoising
computationally expensive. To mitigate this, we employ path consistency
learning, allowing supervision to remain effective even under few-step training
regimes. To enable fine-grained relighting control and supervision, we design a
structured six-dimensional annotation protocol capturing core illumination
attributes. Building upon this, we propose LumosBench, a disentangled
attribute-level benchmark that evaluates lighting controllability via large
vision-language models, enabling automatic and interpretable assessment of
relighting precision across individual dimensions. Extensive experiments
demonstrate that UniLumos achieves state-of-the-art relighting quality with
significantly improved physical consistency, while delivering a 20x speedup for
both image and video relighting. Code is available at
https://github.com/alibaba-damo-academy/Lumos-Custom.