ChatPaper.aiChatPaper

LucidFlux: Restauração Universal de Imagens sem Legendas via um Transformador de Difusão em Grande Escala

LucidFlux: Caption-Free Universal Image Restoration via a Large-Scale Diffusion Transformer

September 26, 2025
Autores: Song Fei, Tian Ye, Lujia Wang, Lei Zhu
cs.AI

Resumo

A restauração universal de imagens (UIR, na sigla em inglês) visa recuperar imagens degradadas por misturas desconhecidas, preservando a semântica — condições nas quais restauradores discriminativos e priors de difusão baseados em UNet frequentemente suavizam excessivamente, alucinam ou desviam. Apresentamos o LucidFlux, um framework de UIR sem legendas que adapta um grande transformador de difusão (Flux.1) sem o uso de legendas de imagem. O LucidFlux introduz um condicionador leve de ramificação dupla que injeta sinais da entrada degradada e de um proxy levemente restaurado para ancorar a geometria e suprimir artefatos, respectivamente. Em seguida, um esquema de modulação adaptativo em relação ao timestep e à camada é projetado para direcionar essas pistas através da hierarquia do backbone, a fim de produzir atualizações de granularidade grossa a fina e contextualmente conscientes que protegem a estrutura global enquanto recuperam a textura. Além disso, para evitar a latência e a instabilidade de prompts de texto ou legendas de MLLM, aplicamos o alinhamento semântico sem legendas por meio de recursos SigLIP extraídos do proxy. Um pipeline de curadoria escalável filtra ainda mais dados em grande escala para supervisão rica em estrutura. Em benchmarks sintéticos e do mundo real, o LucidFlux supera consistentemente baselines de código aberto e comerciais robustos, e estudos de ablação verificam a necessidade de cada componente. O LucidFlux demonstra que, para grandes DiTs, quando, onde e o que condicionar — em vez de adicionar parâmetros ou depender de prompts de texto — é a alavanca governante para a restauração universal de imagens robusta e sem legendas no mundo real.
English
Universal image restoration (UIR) aims to recover images degraded by unknown mixtures while preserving semantics -- conditions under which discriminative restorers and UNet-based diffusion priors often oversmooth, hallucinate, or drift. We present LucidFlux, a caption-free UIR framework that adapts a large diffusion transformer (Flux.1) without image captions. LucidFlux introduces a lightweight dual-branch conditioner that injects signals from the degraded input and a lightly restored proxy to respectively anchor geometry and suppress artifacts. Then, a timestep- and layer-adaptive modulation schedule is designed to route these cues across the backbone's hierarchy, in order to yield coarse-to-fine and context-aware updates that protect the global structure while recovering texture. After that, to avoid the latency and instability of text prompts or MLLM captions, we enforce caption-free semantic alignment via SigLIP features extracted from the proxy. A scalable curation pipeline further filters large-scale data for structure-rich supervision. Across synthetic and in-the-wild benchmarks, LucidFlux consistently outperforms strong open-source and commercial baselines, and ablation studies verify the necessity of each component. LucidFlux shows that, for large DiTs, when, where, and what to condition on -- rather than adding parameters or relying on text prompts -- is the governing lever for robust and caption-free universal image restoration in the wild.
PDF213September 29, 2025