ChatPaper.aiChatPaper

DreamClear: Restauração de Imagens do Mundo Real de Alta Capacidade com Curadoria de Conjuntos de Dados Seguros para a Privacidade

DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation

October 24, 2024
Autores: Yuang Ai, Xiaoqiang Zhou, Huaibo Huang, Xiaotian Han, Zhengyu Chen, Quanzeng You, Hongxia Yang
cs.AI

Resumo

A restauração de imagens (IR) em cenários do mundo real apresenta desafios significativos devido à falta de modelos de alta capacidade e conjuntos de dados abrangentes. Para enfrentar essas questões, apresentamos uma estratégia dupla: GenIR, um inovador pipeline de curadoria de dados, e DreamClear, um modelo de restauração de imagens baseado no Transformer de Difusão (DiT) de ponta. GenIR, nossa contribuição pioneira, é um pipeline de aprendizado de duplo prompt que supera as limitações dos conjuntos de dados existentes, que normalmente compreendem apenas algumas milhares de imagens e, portanto, oferecem generalização limitada para modelos maiores. GenIR simplifica o processo em três etapas: construção de pares imagem-texto, ajuste fino com base em duplo prompt e geração e filtragem de dados. Essa abordagem contorna o processo demorado de coleta de dados, garantindo conformidade com direitos autorais e fornecendo uma solução econômica e segura em termos de privacidade para a construção do conjunto de dados de IR. O resultado é um conjunto de dados em grande escala com um milhão de imagens de alta qualidade. Nossa segunda contribuição, DreamClear, é um modelo de restauração de imagens baseado em DiT. Ele utiliza os precursores generativos de modelos de difusão de texto para imagem (T2I) e as robustas capacidades perceptuais de modelos de linguagem multimodal grande (MLLMs) para alcançar uma restauração fotorrealista. Para impulsionar a adaptabilidade do modelo a diversas degradações do mundo real, introduzimos o Mixture of Adaptive Modulator (MoAM). Ele emprega precursores de degradação por token para integrar dinamicamente vários especialistas em restauração, expandindo assim o alcance das degradações que o modelo pode abordar. Nossos experimentos exaustivos confirmam o desempenho superior do DreamClear, destacando a eficácia de nossa estratégia dupla para restauração de imagens do mundo real. O código e os modelos pré-treinados estarão disponíveis em: https://github.com/shallowdream204/DreamClear.
English
Image restoration (IR) in real-world scenarios presents significant challenges due to the lack of high-capacity models and comprehensive datasets. To tackle these issues, we present a dual strategy: GenIR, an innovative data curation pipeline, and DreamClear, a cutting-edge Diffusion Transformer (DiT)-based image restoration model. GenIR, our pioneering contribution, is a dual-prompt learning pipeline that overcomes the limitations of existing datasets, which typically comprise only a few thousand images and thus offer limited generalizability for larger models. GenIR streamlines the process into three stages: image-text pair construction, dual-prompt based fine-tuning, and data generation & filtering. This approach circumvents the laborious data crawling process, ensuring copyright compliance and providing a cost-effective, privacy-safe solution for IR dataset construction. The result is a large-scale dataset of one million high-quality images. Our second contribution, DreamClear, is a DiT-based image restoration model. It utilizes the generative priors of text-to-image (T2I) diffusion models and the robust perceptual capabilities of multi-modal large language models (MLLMs) to achieve photorealistic restoration. To boost the model's adaptability to diverse real-world degradations, we introduce the Mixture of Adaptive Modulator (MoAM). It employs token-wise degradation priors to dynamically integrate various restoration experts, thereby expanding the range of degradations the model can address. Our exhaustive experiments confirm DreamClear's superior performance, underlining the efficacy of our dual strategy for real-world image restoration. Code and pre-trained models will be available at: https://github.com/shallowdream204/DreamClear.

Summary

AI-Generated Summary

PDF193November 16, 2024