DreamClear: Restauración de Imágenes del Mundo Real de Alta Capacidad con Curación de Conjuntos de Datos Seguros para la Privacidad
DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation
October 24, 2024
Autores: Yuang Ai, Xiaoqiang Zhou, Huaibo Huang, Xiaotian Han, Zhengyu Chen, Quanzeng You, Hongxia Yang
cs.AI
Resumen
La restauración de imágenes (IR) en escenarios del mundo real presenta desafíos significativos debido a la falta de modelos de alta capacidad y conjuntos de datos completos. Para abordar estos problemas, presentamos una estrategia dual: GenIR, un innovador proceso de curación de datos, y DreamClear, un modelo de restauración de imágenes de vanguardia basado en el Transformer de Difusión (DiT). GenIR, nuestra contribución pionera, es un proceso de aprendizaje dual que supera las limitaciones de los conjuntos de datos existentes, que suelen constar solo de unas pocas mil imágenes y por lo tanto ofrecen una generalización limitada para modelos más grandes. GenIR simplifica el proceso en tres etapas: construcción de pares imagen-texto, ajuste fino basado en doble indicación y generación y filtrado de datos. Este enfoque evita el laborioso proceso de rastreo de datos, garantizando el cumplimiento de los derechos de autor y proporcionando una solución rentable y segura en términos de privacidad para la construcción de conjuntos de datos de IR. El resultado es un conjunto de datos a gran escala de un millón de imágenes de alta calidad. Nuestra segunda contribución, DreamClear, es un modelo de restauración de imágenes basado en DiT. Utiliza los precursores generativos de los modelos de difusión de texto a imagen (T2I) y las sólidas capacidades perceptivas de los grandes modelos de lenguaje multimodal (MLLM) para lograr una restauración fotorrealista. Para potenciar la adaptabilidad del modelo a diversas degradaciones del mundo real, introducimos la Mezcla de Modulador Adaptativo (MoAM). Emplea precursores de degradación a nivel de token para integrar dinámicamente varios expertos en restauración, ampliando así el rango de degradaciones que el modelo puede abordar. Nuestros exhaustivos experimentos confirman el rendimiento superior de DreamClear, subrayando la eficacia de nuestra estrategia dual para la restauración de imágenes del mundo real. El código y los modelos pre-entrenados estarán disponibles en: https://github.com/shallowdream204/DreamClear.
English
Image restoration (IR) in real-world scenarios presents significant
challenges due to the lack of high-capacity models and comprehensive datasets.
To tackle these issues, we present a dual strategy: GenIR, an innovative data
curation pipeline, and DreamClear, a cutting-edge Diffusion Transformer
(DiT)-based image restoration model. GenIR, our pioneering contribution, is a
dual-prompt learning pipeline that overcomes the limitations of existing
datasets, which typically comprise only a few thousand images and thus offer
limited generalizability for larger models. GenIR streamlines the process into
three stages: image-text pair construction, dual-prompt based fine-tuning, and
data generation & filtering. This approach circumvents the laborious data
crawling process, ensuring copyright compliance and providing a cost-effective,
privacy-safe solution for IR dataset construction. The result is a large-scale
dataset of one million high-quality images. Our second contribution,
DreamClear, is a DiT-based image restoration model. It utilizes the generative
priors of text-to-image (T2I) diffusion models and the robust perceptual
capabilities of multi-modal large language models (MLLMs) to achieve
photorealistic restoration. To boost the model's adaptability to diverse
real-world degradations, we introduce the Mixture of Adaptive Modulator (MoAM).
It employs token-wise degradation priors to dynamically integrate various
restoration experts, thereby expanding the range of degradations the model can
address. Our exhaustive experiments confirm DreamClear's superior performance,
underlining the efficacy of our dual strategy for real-world image restoration.
Code and pre-trained models will be available at:
https://github.com/shallowdream204/DreamClear.Summary
AI-Generated Summary