ChatPaper.aiChatPaper

DreamClear: Restauración de Imágenes del Mundo Real de Alta Capacidad con Curación de Conjuntos de Datos Seguros para la Privacidad

DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation

October 24, 2024
Autores: Yuang Ai, Xiaoqiang Zhou, Huaibo Huang, Xiaotian Han, Zhengyu Chen, Quanzeng You, Hongxia Yang
cs.AI

Resumen

La restauración de imágenes (IR) en escenarios del mundo real presenta desafíos significativos debido a la falta de modelos de alta capacidad y conjuntos de datos completos. Para abordar estos problemas, presentamos una estrategia dual: GenIR, un innovador proceso de curación de datos, y DreamClear, un modelo de restauración de imágenes de vanguardia basado en el Transformer de Difusión (DiT). GenIR, nuestra contribución pionera, es un proceso de aprendizaje dual que supera las limitaciones de los conjuntos de datos existentes, que suelen constar solo de unas pocas mil imágenes y por lo tanto ofrecen una generalización limitada para modelos más grandes. GenIR simplifica el proceso en tres etapas: construcción de pares imagen-texto, ajuste fino basado en doble indicación y generación y filtrado de datos. Este enfoque evita el laborioso proceso de rastreo de datos, garantizando el cumplimiento de los derechos de autor y proporcionando una solución rentable y segura en términos de privacidad para la construcción de conjuntos de datos de IR. El resultado es un conjunto de datos a gran escala de un millón de imágenes de alta calidad. Nuestra segunda contribución, DreamClear, es un modelo de restauración de imágenes basado en DiT. Utiliza los precursores generativos de los modelos de difusión de texto a imagen (T2I) y las sólidas capacidades perceptivas de los grandes modelos de lenguaje multimodal (MLLM) para lograr una restauración fotorrealista. Para potenciar la adaptabilidad del modelo a diversas degradaciones del mundo real, introducimos la Mezcla de Modulador Adaptativo (MoAM). Emplea precursores de degradación a nivel de token para integrar dinámicamente varios expertos en restauración, ampliando así el rango de degradaciones que el modelo puede abordar. Nuestros exhaustivos experimentos confirman el rendimiento superior de DreamClear, subrayando la eficacia de nuestra estrategia dual para la restauración de imágenes del mundo real. El código y los modelos pre-entrenados estarán disponibles en: https://github.com/shallowdream204/DreamClear.
English
Image restoration (IR) in real-world scenarios presents significant challenges due to the lack of high-capacity models and comprehensive datasets. To tackle these issues, we present a dual strategy: GenIR, an innovative data curation pipeline, and DreamClear, a cutting-edge Diffusion Transformer (DiT)-based image restoration model. GenIR, our pioneering contribution, is a dual-prompt learning pipeline that overcomes the limitations of existing datasets, which typically comprise only a few thousand images and thus offer limited generalizability for larger models. GenIR streamlines the process into three stages: image-text pair construction, dual-prompt based fine-tuning, and data generation & filtering. This approach circumvents the laborious data crawling process, ensuring copyright compliance and providing a cost-effective, privacy-safe solution for IR dataset construction. The result is a large-scale dataset of one million high-quality images. Our second contribution, DreamClear, is a DiT-based image restoration model. It utilizes the generative priors of text-to-image (T2I) diffusion models and the robust perceptual capabilities of multi-modal large language models (MLLMs) to achieve photorealistic restoration. To boost the model's adaptability to diverse real-world degradations, we introduce the Mixture of Adaptive Modulator (MoAM). It employs token-wise degradation priors to dynamically integrate various restoration experts, thereby expanding the range of degradations the model can address. Our exhaustive experiments confirm DreamClear's superior performance, underlining the efficacy of our dual strategy for real-world image restoration. Code and pre-trained models will be available at: https://github.com/shallowdream204/DreamClear.

Summary

AI-Generated Summary

PDF193November 16, 2024