GGT-100K: Генеративный эталон для обобщаемого восстановления изображений реального мира

Аннотация

Восстановление изображений (ВИ) в реальных условиях ограничено нехваткой качественных парных обучающих данных. Синтетические наборы данных многочисленны, но часто не моделируют реальные искажения, в то время как реальные парные наборы данных дороги и сложны в получении. В результате модели ВИ, обученные на таких наборах, демонстрируют ограниченную способность к обобщению в реальных сценариях. В данной работе мы предлагаем концепцию генеративных эталонных данных (Generative Ground Truth, GGT), используя генеративные мультимодальные фундаментальные модели (МФМ) для получения целевых изображений высокого качества (ВК) из реальных изображений низкого качества (НК). Сначала мы проводим систематическую оценку девяти современных МФМ, включая Nano-Banana-2 и GPT-Image-2, на изображениях различных сцен и типов искажений. Результаты показывают, что Nano-Banana-2 с адаптивным промптингом на основе VLM демонстрирует наивысшую способность синтезировать перцептивно реалистичные и верные содержанию цели ВК, которые могут служить в качестве GGT для входных данных НК. Затем мы используем Nano-Banana-2 для создания конвейера синтеза GGT, который включает многоэтапный контроль качества для обеспечения надежности данных, и формируем GGT-100K — парный набор данных НК-ВК, содержащий 103 707 обучающих пар и охватывающий разнообразные сцены и сложные реальные искажения. Также создан тестовый набор из 500 пар изображений. Обширные эксперименты показывают, что GGT-100K последовательно улучшает обобщение на реальные данные для широкого спектра моделей ВИ, причем особенно сильный эффект наблюдается при тонкой настройке генеративных моделей для задач ВИ. Наши результаты свидетельствуют о том, что МФМ могут служить практическими инструментами для генерации данных, ориентированной на восстановление, а GGT-100K является полезным ресурсом для расширения границ обобщения моделей ВИ в реальных условиях.

English

Real-world image restoration (IR) is bottlenecked by the scarcity of high-quality paired training data. Synthetic datasets are abundant but often fail to model real-world degradations, while real-world paired datasets are expensive and difficult to capture. As a result, IR models trained on these datasets show limited generalization in real-world scenarios. In this work, we propose Generative Ground Truth (GGT) by using generative multimodal foundation models (MFMs) to produce high-quality (HQ) targets from real-world low-quality (LQ) images. We first conduct a systematic evaluation of nine state-of-the-art MFMs, including Nano-Banana-2 and GPT-Image-2, on images of various scenes and degradation types. The results demonstrate that Nano-Banana-2 with VLM-based adaptive prompting shows the highest capability to synthesize perceptually realistic and content-faithful HQ targets, which can serve as the GGT for the LQ input. We then employ Nano-Banana-2 to build a GGT synthesis pipeline, which involves multi-stage quality control to ensure data reliability, and construct GGT-100K, an LQ-HQ paired dataset comprising 103,707 training pairs and covering diverse scenes and complex real-world degradations. A test set of 500 image pairs is also established. Extensive experiments show that GGT-100K consistently improves the real-world generalization of a wide range of IR models, with particularly strong benefits for finetuning generative models for IR tasks. Our results suggest that MFMs can serve as practical tools for restoration-oriented data generation, and GGT-100K is a useful resource to expand the generalization boundaries of real-world IR models.