LucidFlux: 대규모 확산 트랜스포머를 통한 캡션 없는 범용 이미지 복원
LucidFlux: Caption-Free Universal Image Restoration via a Large-Scale Diffusion Transformer
September 26, 2025
저자: Song Fei, Tian Ye, Lujia Wang, Lei Zhu
cs.AI
초록
범용 이미지 복원(UIR)은 알려지지 않은 혼합 요인으로 인해 저하된 이미지를 복원하면서 의미 구조를 보존하는 것을 목표로 합니다. 이러한 조건에서 판별적 복원기와 UNet 기반 확산 사전 모델은 종종 과도하게 평활화되거나, 허구적인 요소를 생성하거나, 원래 의미에서 벗어나는 문제를 보입니다. 본 연구에서는 이미지 캡션이 필요 없는 UIR 프레임워크인 LucidFlux를 제안합니다. 이 프레임워크는 대규모 확산 트랜스포머(Flux.1)를 적응적으로 활용합니다. LucidFlux는 경량화된 이중 분기 조건기를 도입하여, 저하된 입력 이미지와 경량 복원된 프록시로부터 신호를 주입함으로써 각각 기하학적 구조를 고정하고 아티팩트를 억제합니다. 또한, 시간 단계 및 계층 적응형 변조 스케줄을 설계하여 이러한 신호를 백본 계층 구조 전반에 걸쳐 라우팅함으로써, 전역 구조를 보호하면서 질감을 복원하는 거시적에서 미시적, 문맥 인식 업데이트를 가능하게 합니다. 더 나아가, 텍스트 프롬프트나 MLLM 캡션의 지연 및 불안정성을 피하기 위해, 프록시에서 추출한 SigLIP 특징을 통해 캡션 없는 의미 정렬을 강제합니다. 확장 가능한 큐레이션 파이프라인은 대규모 데이터를 구조적으로 풍부한 지도 학습을 위해 추가로 필터링합니다. 합성 및 실제 벤치마크에서 LucidFlux는 강력한 오픈소스 및 상용 베이스라인을 꾸준히 능가하며, 각 구성 요소의 필요성을 검증하는 절제 연구를 수행했습니다. LucidFlux는 대규모 DiT의 경우, 매개변수를 추가하거나 텍스트 프롬프트에 의존하기보다는 언제, 어디에, 무엇을 조건으로 할지가 실제 환경에서 강력하고 캡션 없는 범용 이미지 복원을 위한 핵심 요소임을 보여줍니다.
English
Universal image restoration (UIR) aims to recover images degraded by unknown
mixtures while preserving semantics -- conditions under which discriminative
restorers and UNet-based diffusion priors often oversmooth, hallucinate, or
drift. We present LucidFlux, a caption-free UIR framework that adapts a large
diffusion transformer (Flux.1) without image captions. LucidFlux introduces a
lightweight dual-branch conditioner that injects signals from the degraded
input and a lightly restored proxy to respectively anchor geometry and suppress
artifacts. Then, a timestep- and layer-adaptive modulation schedule is designed
to route these cues across the backbone's hierarchy, in order to yield
coarse-to-fine and context-aware updates that protect the global structure
while recovering texture. After that, to avoid the latency and instability of
text prompts or MLLM captions, we enforce caption-free semantic alignment via
SigLIP features extracted from the proxy. A scalable curation pipeline further
filters large-scale data for structure-rich supervision. Across synthetic and
in-the-wild benchmarks, LucidFlux consistently outperforms strong open-source
and commercial baselines, and ablation studies verify the necessity of each
component. LucidFlux shows that, for large DiTs, when, where, and what to
condition on -- rather than adding parameters or relying on text prompts -- is
the governing lever for robust and caption-free universal image restoration in
the wild.