ChatPaper.aiChatPaper

DreamClear: Высокоемкое восстановление изображений в реальном мире с обеспечением конфиденциальности при курировании набора данных.

DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation

October 24, 2024
Авторы: Yuang Ai, Xiaoqiang Zhou, Huaibo Huang, Xiaotian Han, Zhengyu Chen, Quanzeng You, Hongxia Yang
cs.AI

Аннотация

Восстановление изображений (IR) в реальных сценариях представляет существенные трудности из-за отсутствия моделей высокой емкости и полных наборов данных. Для решения этих проблем мы представляем двойную стратегию: GenIR, инновационный конвейер курирования данных, и DreamClear, передовая модель восстановления изображений на основе Диффузионного Трансформера (DiT). GenIR, наш первооткрывательный вклад, представляет собой конвейер обучения с двойным подсказыванием, который преодолевает ограничения существующих наборов данных, обычно состоящих всего из нескольких тысяч изображений и, таким образом, предлагающих ограниченную обобщаемость для более крупных моделей. GenIR оптимизирует процесс в три этапа: построение пары изображение-текст, настройка feine-tuning на основе двойного подсказывания и генерация и фильтрация данных. Этот подход обходит трудоемкий процесс сбора данных, обеспечивая соблюдение авторских прав и предоставляя эффективное с точки зрения затрат и безопасное с точки зрения конфиденциальности решение для создания набора данных IR. Результатом является масштабный набор данных из миллиона высококачественных изображений. Наш второй вклад, DreamClear, - это модель восстановления изображений на основе DiT. Она использует генеративные априорные знания текст-изображение (T2I) диффузионных моделей и надежные перцептивные возможности многомодальных крупных языковых моделей (MLLMs) для достижения фотореалистичного восстановления. Для повышения адаптивности модели к различным деградациям реального мира мы представляем Смесь Адаптивного Модулятора (MoAM). Он использует априорные знания о деградации на уровне токенов для динамического интегрирования различных экспертов по восстановлению, тем самым расширяя спектр деградаций, с которыми модель может справиться. Наши исчерпывающие эксперименты подтверждают превосходную производительность DreamClear, подчеркивая эффективность нашей двойной стратегии для восстановления изображений в реальном мире. Код и предварительно обученные модели будут доступны по адресу: https://github.com/shallowdream204/DreamClear.
English
Image restoration (IR) in real-world scenarios presents significant challenges due to the lack of high-capacity models and comprehensive datasets. To tackle these issues, we present a dual strategy: GenIR, an innovative data curation pipeline, and DreamClear, a cutting-edge Diffusion Transformer (DiT)-based image restoration model. GenIR, our pioneering contribution, is a dual-prompt learning pipeline that overcomes the limitations of existing datasets, which typically comprise only a few thousand images and thus offer limited generalizability for larger models. GenIR streamlines the process into three stages: image-text pair construction, dual-prompt based fine-tuning, and data generation & filtering. This approach circumvents the laborious data crawling process, ensuring copyright compliance and providing a cost-effective, privacy-safe solution for IR dataset construction. The result is a large-scale dataset of one million high-quality images. Our second contribution, DreamClear, is a DiT-based image restoration model. It utilizes the generative priors of text-to-image (T2I) diffusion models and the robust perceptual capabilities of multi-modal large language models (MLLMs) to achieve photorealistic restoration. To boost the model's adaptability to diverse real-world degradations, we introduce the Mixture of Adaptive Modulator (MoAM). It employs token-wise degradation priors to dynamically integrate various restoration experts, thereby expanding the range of degradations the model can address. Our exhaustive experiments confirm DreamClear's superior performance, underlining the efficacy of our dual strategy for real-world image restoration. Code and pre-trained models will be available at: https://github.com/shallowdream204/DreamClear.

Summary

AI-Generated Summary

PDF193November 16, 2024