LucidFlux: Universelle Bildrestaurierung ohne Beschriftung durch einen großskaligen Diffusions-Transformer

papers.abstract

Universelle Bildrestaurierung (Universal Image Restoration, UIR) zielt darauf ab, Bilder, die durch unbekannte Mischungen von Degradationen beeinträchtigt sind, wiederherzustellen, während die Semantik erhalten bleibt – Bedingungen, unter denen diskriminative Restaurierungsverfahren und UNet-basierte Diffusions-Priors oft übermäßig glätten, Halluzinationen erzeugen oder abweichen. Wir stellen LucidFlux vor, ein beschriftungsfreies UIR-Framework, das einen großen Diffusionstransformer (Flux.1) ohne Bildbeschriftungen adaptiert. LucidFlux führt einen leichtgewichtigen Dual-Branch-Conditioner ein, der Signale aus dem degradierten Eingabebild und einem leicht restaurierten Proxy injiziert, um jeweils die Geometrie zu verankern und Artefakte zu unterdrücken. Anschließend wird ein zeitstufen- und schichtenadaptiver Modulationsplan entworfen, um diese Hinweise durch die Hierarchie des Backbones zu leiten, um grob- bis feinabgestufte und kontextbewusste Aktualisierungen zu erzeugen, die die globale Struktur schützen, während Texturen wiederhergestellt werden. Um die Latenz und Instabilität von Textprompts oder MLLM-Beschriftungen zu vermeiden, erzwingen wir eine beschriftungsfreie semantische Ausrichtung über SigLIP-Features, die aus dem Proxy extrahiert werden. Eine skalierbare Kuratierungspipeline filtert zusätzlich groß angelegte Daten für eine strukturreiche Überwachung. In synthetischen und realen Benchmarks übertrifft LucidFlux durchweg starke Open-Source- und kommerzielle Baselines, und Ablationsstudien bestätigen die Notwendigkeit jeder Komponente. LucidFlux zeigt, dass für große DiTs die Frage, wann, wo und worauf konditioniert wird – anstatt Parameter hinzuzufügen oder auf Textprompts angewiesen zu sein – der entscheidende Hebel für robuste und beschriftungsfreie universelle Bildrestaurierung in realen Szenarien ist.

English

Universal image restoration (UIR) aims to recover images degraded by unknown mixtures while preserving semantics -- conditions under which discriminative restorers and UNet-based diffusion priors often oversmooth, hallucinate, or drift. We present LucidFlux, a caption-free UIR framework that adapts a large diffusion transformer (Flux.1) without image captions. LucidFlux introduces a lightweight dual-branch conditioner that injects signals from the degraded input and a lightly restored proxy to respectively anchor geometry and suppress artifacts. Then, a timestep- and layer-adaptive modulation schedule is designed to route these cues across the backbone's hierarchy, in order to yield coarse-to-fine and context-aware updates that protect the global structure while recovering texture. After that, to avoid the latency and instability of text prompts or MLLM captions, we enforce caption-free semantic alignment via SigLIP features extracted from the proxy. A scalable curation pipeline further filters large-scale data for structure-rich supervision. Across synthetic and in-the-wild benchmarks, LucidFlux consistently outperforms strong open-source and commercial baselines, and ablation studies verify the necessity of each component. LucidFlux shows that, for large DiTs, when, where, and what to condition on -- rather than adding parameters or relying on text prompts -- is the governing lever for robust and caption-free universal image restoration in the wild.

LucidFlux: Universelle Bildrestaurierung ohne Beschriftung durch einen großskaligen Diffusions-Transformer

LucidFlux: Caption-Free Universal Image Restoration via a Large-Scale Diffusion Transformer

papers.abstract

Support