LucidFlux: Restauração Universal de Imagens sem Legendas via um Transformador de Difusão em Grande Escala
LucidFlux: Caption-Free Universal Image Restoration via a Large-Scale Diffusion Transformer
September 26, 2025
Autores: Song Fei, Tian Ye, Lujia Wang, Lei Zhu
cs.AI
Resumo
A restauração universal de imagens (UIR, na sigla em inglês) visa recuperar imagens degradadas por misturas desconhecidas, preservando a semântica — condições nas quais restauradores discriminativos e priors de difusão baseados em UNet frequentemente suavizam excessivamente, alucinam ou desviam. Apresentamos o LucidFlux, um framework de UIR sem legendas que adapta um grande transformador de difusão (Flux.1) sem o uso de legendas de imagem. O LucidFlux introduz um condicionador leve de ramificação dupla que injeta sinais da entrada degradada e de um proxy levemente restaurado para ancorar a geometria e suprimir artefatos, respectivamente. Em seguida, um esquema de modulação adaptativo em relação ao timestep e à camada é projetado para direcionar essas pistas através da hierarquia do backbone, a fim de produzir atualizações de granularidade grossa a fina e contextualmente conscientes que protegem a estrutura global enquanto recuperam a textura. Além disso, para evitar a latência e a instabilidade de prompts de texto ou legendas de MLLM, aplicamos o alinhamento semântico sem legendas por meio de recursos SigLIP extraídos do proxy. Um pipeline de curadoria escalável filtra ainda mais dados em grande escala para supervisão rica em estrutura. Em benchmarks sintéticos e do mundo real, o LucidFlux supera consistentemente baselines de código aberto e comerciais robustos, e estudos de ablação verificam a necessidade de cada componente. O LucidFlux demonstra que, para grandes DiTs, quando, onde e o que condicionar — em vez de adicionar parâmetros ou depender de prompts de texto — é a alavanca governante para a restauração universal de imagens robusta e sem legendas no mundo real.
English
Universal image restoration (UIR) aims to recover images degraded by unknown
mixtures while preserving semantics -- conditions under which discriminative
restorers and UNet-based diffusion priors often oversmooth, hallucinate, or
drift. We present LucidFlux, a caption-free UIR framework that adapts a large
diffusion transformer (Flux.1) without image captions. LucidFlux introduces a
lightweight dual-branch conditioner that injects signals from the degraded
input and a lightly restored proxy to respectively anchor geometry and suppress
artifacts. Then, a timestep- and layer-adaptive modulation schedule is designed
to route these cues across the backbone's hierarchy, in order to yield
coarse-to-fine and context-aware updates that protect the global structure
while recovering texture. After that, to avoid the latency and instability of
text prompts or MLLM captions, we enforce caption-free semantic alignment via
SigLIP features extracted from the proxy. A scalable curation pipeline further
filters large-scale data for structure-rich supervision. Across synthetic and
in-the-wild benchmarks, LucidFlux consistently outperforms strong open-source
and commercial baselines, and ablation studies verify the necessity of each
component. LucidFlux shows that, for large DiTs, when, where, and what to
condition on -- rather than adding parameters or relying on text prompts -- is
the governing lever for robust and caption-free universal image restoration in
the wild.