LucidFlux: Universelle Bildrestaurierung ohne Beschriftung durch einen großskaligen Diffusions-Transformer
LucidFlux: Caption-Free Universal Image Restoration via a Large-Scale Diffusion Transformer
September 26, 2025
papers.authors: Song Fei, Tian Ye, Lujia Wang, Lei Zhu
cs.AI
papers.abstract
Universelle Bildrestaurierung (Universal Image Restoration, UIR) zielt darauf ab, Bilder, die durch unbekannte Mischungen von Degradationen beeinträchtigt sind, wiederherzustellen, während die Semantik erhalten bleibt – Bedingungen, unter denen diskriminative Restaurierungsverfahren und UNet-basierte Diffusions-Priors oft übermäßig glätten, Halluzinationen erzeugen oder abweichen. Wir stellen LucidFlux vor, ein beschriftungsfreies UIR-Framework, das einen großen Diffusionstransformer (Flux.1) ohne Bildbeschriftungen adaptiert. LucidFlux führt einen leichtgewichtigen Dual-Branch-Conditioner ein, der Signale aus dem degradierten Eingabebild und einem leicht restaurierten Proxy injiziert, um jeweils die Geometrie zu verankern und Artefakte zu unterdrücken. Anschließend wird ein zeitstufen- und schichtenadaptiver Modulationsplan entworfen, um diese Hinweise durch die Hierarchie des Backbones zu leiten, um grob- bis feinabgestufte und kontextbewusste Aktualisierungen zu erzeugen, die die globale Struktur schützen, während Texturen wiederhergestellt werden. Um die Latenz und Instabilität von Textprompts oder MLLM-Beschriftungen zu vermeiden, erzwingen wir eine beschriftungsfreie semantische Ausrichtung über SigLIP-Features, die aus dem Proxy extrahiert werden. Eine skalierbare Kuratierungspipeline filtert zusätzlich groß angelegte Daten für eine strukturreiche Überwachung. In synthetischen und realen Benchmarks übertrifft LucidFlux durchweg starke Open-Source- und kommerzielle Baselines, und Ablationsstudien bestätigen die Notwendigkeit jeder Komponente. LucidFlux zeigt, dass für große DiTs die Frage, wann, wo und worauf konditioniert wird – anstatt Parameter hinzuzufügen oder auf Textprompts angewiesen zu sein – der entscheidende Hebel für robuste und beschriftungsfreie universelle Bildrestaurierung in realen Szenarien ist.
English
Universal image restoration (UIR) aims to recover images degraded by unknown
mixtures while preserving semantics -- conditions under which discriminative
restorers and UNet-based diffusion priors often oversmooth, hallucinate, or
drift. We present LucidFlux, a caption-free UIR framework that adapts a large
diffusion transformer (Flux.1) without image captions. LucidFlux introduces a
lightweight dual-branch conditioner that injects signals from the degraded
input and a lightly restored proxy to respectively anchor geometry and suppress
artifacts. Then, a timestep- and layer-adaptive modulation schedule is designed
to route these cues across the backbone's hierarchy, in order to yield
coarse-to-fine and context-aware updates that protect the global structure
while recovering texture. After that, to avoid the latency and instability of
text prompts or MLLM captions, we enforce caption-free semantic alignment via
SigLIP features extracted from the proxy. A scalable curation pipeline further
filters large-scale data for structure-rich supervision. Across synthetic and
in-the-wild benchmarks, LucidFlux consistently outperforms strong open-source
and commercial baselines, and ablation studies verify the necessity of each
component. LucidFlux shows that, for large DiTs, when, where, and what to
condition on -- rather than adding parameters or relying on text prompts -- is
the governing lever for robust and caption-free universal image restoration in
the wild.