GGT-100K: Ground Truth Generativo para Restauração Generalizável de Imagens do Mundo Real

Resumo

A restauração de imagens (RI) do mundo real enfrenta um gargalo devido à escassez de dados de treinamento pareados de alta qualidade. Conjuntos de dados sintéticos são abundantes, mas frequentemente falham em modelar degradações do mundo real, enquanto conjuntos de dados pareados do mundo real são caros e difíceis de capturar. Como resultado, modelos de RI treinados nesses conjuntos apresentam generalização limitada em cenários reais. Neste trabalho, propomos o Ground Truth Generativo (GGT), utilizando modelos fundamentais multimodais (MFMs) generativos para produzir alvos de alta qualidade (HQ) a partir de imagens reais de baixa qualidade (LQ). Primeiramente, realizamos uma avaliação sistemática de nove MFMs de última geração, incluindo Nano-Banana-2 e GPT-Image-2, em imagens de diversas cenas e tipos de degradação. Os resultados demonstram que o Nano-Banana-2, com prompting adaptativo baseado em VLM, apresenta a maior capacidade de sintetizar alvos HQ perceptual e fiel ao conteúdo, que podem servir como GGT para a entrada LQ. Em seguida, empregamos o Nano-Banana-2 para construir um pipeline de síntese de GGT, que envolve controle de qualidade em múltiplos estágios para garantir a confiabilidade dos dados, e construímos o GGT-100K, um conjunto de dados pareados LQ-HQ compreendendo 103.707 pares de treinamento e abrangendo cenas diversas e degradações complexas do mundo real. Um conjunto de teste com 500 pares de imagens também foi estabelecido. Experimentos extensivos mostram que o GGT-100K melhora consistentemente a generalização em cenários reais de uma ampla gama de modelos de RI, com benefícios particularmente fortes para o ajuste fino de modelos generativos para tarefas de RI. Nossos resultados sugerem que os MFMs podem servir como ferramentas práticas para geração de dados orientada à restauração, e que o GGT-100K é um recurso útil para expandir os limites de generalização de modelos de RI no mundo real.

English

Real-world image restoration (IR) is bottlenecked by the scarcity of high-quality paired training data. Synthetic datasets are abundant but often fail to model real-world degradations, while real-world paired datasets are expensive and difficult to capture. As a result, IR models trained on these datasets show limited generalization in real-world scenarios. In this work, we propose Generative Ground Truth (GGT) by using generative multimodal foundation models (MFMs) to produce high-quality (HQ) targets from real-world low-quality (LQ) images. We first conduct a systematic evaluation of nine state-of-the-art MFMs, including Nano-Banana-2 and GPT-Image-2, on images of various scenes and degradation types. The results demonstrate that Nano-Banana-2 with VLM-based adaptive prompting shows the highest capability to synthesize perceptually realistic and content-faithful HQ targets, which can serve as the GGT for the LQ input. We then employ Nano-Banana-2 to build a GGT synthesis pipeline, which involves multi-stage quality control to ensure data reliability, and construct GGT-100K, an LQ-HQ paired dataset comprising 103,707 training pairs and covering diverse scenes and complex real-world degradations. A test set of 500 image pairs is also established. Extensive experiments show that GGT-100K consistently improves the real-world generalization of a wide range of IR models, with particularly strong benefits for finetuning generative models for IR tasks. Our results suggest that MFMs can serve as practical tools for restoration-oriented data generation, and GGT-100K is a useful resource to expand the generalization boundaries of real-world IR models.