ChatPaper.aiChatPaper

LucidFlux: Universelle Bildrestaurierung ohne Beschriftung durch einen großskaligen Diffusions-Transformer

LucidFlux: Caption-Free Universal Image Restoration via a Large-Scale Diffusion Transformer

September 26, 2025
papers.authors: Song Fei, Tian Ye, Lujia Wang, Lei Zhu
cs.AI

papers.abstract

Universelle Bildrestaurierung (Universal Image Restoration, UIR) zielt darauf ab, Bilder, die durch unbekannte Mischungen von Degradationen beeinträchtigt sind, wiederherzustellen, während die Semantik erhalten bleibt – Bedingungen, unter denen diskriminative Restaurierungsverfahren und UNet-basierte Diffusions-Priors oft übermäßig glätten, Halluzinationen erzeugen oder abweichen. Wir stellen LucidFlux vor, ein beschriftungsfreies UIR-Framework, das einen großen Diffusionstransformer (Flux.1) ohne Bildbeschriftungen adaptiert. LucidFlux führt einen leichtgewichtigen Dual-Branch-Conditioner ein, der Signale aus dem degradierten Eingabebild und einem leicht restaurierten Proxy injiziert, um jeweils die Geometrie zu verankern und Artefakte zu unterdrücken. Anschließend wird ein zeitstufen- und schichtenadaptiver Modulationsplan entworfen, um diese Hinweise durch die Hierarchie des Backbones zu leiten, um grob- bis feinabgestufte und kontextbewusste Aktualisierungen zu erzeugen, die die globale Struktur schützen, während Texturen wiederhergestellt werden. Um die Latenz und Instabilität von Textprompts oder MLLM-Beschriftungen zu vermeiden, erzwingen wir eine beschriftungsfreie semantische Ausrichtung über SigLIP-Features, die aus dem Proxy extrahiert werden. Eine skalierbare Kuratierungspipeline filtert zusätzlich groß angelegte Daten für eine strukturreiche Überwachung. In synthetischen und realen Benchmarks übertrifft LucidFlux durchweg starke Open-Source- und kommerzielle Baselines, und Ablationsstudien bestätigen die Notwendigkeit jeder Komponente. LucidFlux zeigt, dass für große DiTs die Frage, wann, wo und worauf konditioniert wird – anstatt Parameter hinzuzufügen oder auf Textprompts angewiesen zu sein – der entscheidende Hebel für robuste und beschriftungsfreie universelle Bildrestaurierung in realen Szenarien ist.
English
Universal image restoration (UIR) aims to recover images degraded by unknown mixtures while preserving semantics -- conditions under which discriminative restorers and UNet-based diffusion priors often oversmooth, hallucinate, or drift. We present LucidFlux, a caption-free UIR framework that adapts a large diffusion transformer (Flux.1) without image captions. LucidFlux introduces a lightweight dual-branch conditioner that injects signals from the degraded input and a lightly restored proxy to respectively anchor geometry and suppress artifacts. Then, a timestep- and layer-adaptive modulation schedule is designed to route these cues across the backbone's hierarchy, in order to yield coarse-to-fine and context-aware updates that protect the global structure while recovering texture. After that, to avoid the latency and instability of text prompts or MLLM captions, we enforce caption-free semantic alignment via SigLIP features extracted from the proxy. A scalable curation pipeline further filters large-scale data for structure-rich supervision. Across synthetic and in-the-wild benchmarks, LucidFlux consistently outperforms strong open-source and commercial baselines, and ablation studies verify the necessity of each component. LucidFlux shows that, for large DiTs, when, where, and what to condition on -- rather than adding parameters or relying on text prompts -- is the governing lever for robust and caption-free universal image restoration in the wild.
PDF173September 29, 2025