GGT-100K: Verdad Terrestre Generativa para la Restauración Generalizable de Imágenes del Mundo Real

Resumen

La restauración de imágenes (IR) en el mundo real está limitada por la escasez de datos de entrenamiento pareados de alta calidad. Los conjuntos de datos sintéticos son abundantes, pero a menudo no logran modelar las degradaciones del mundo real, mientras que los conjuntos de datos pareados reales son costosos y difíciles de capturar. Como resultado, los modelos de IR entrenados con estos conjuntos de datos muestran una generalización limitada en escenarios del mundo real. En este trabajo, proponemos la Generación de Verdad Fundamental (GGT, por sus siglas en inglés) utilizando modelos fundacionales multimodales (MFMs) generativos para producir objetivos de alta calidad (HQ) a partir de imágenes de baja calidad (LQ) del mundo real. Primero, realizamos una evaluación sistemática de nueve MFMs de última generación, incluyendo Nano-Banana-2 y GPT-Image-2, en imágenes de diversas escenas y tipos de degradación. Los resultados demuestran que Nano-Banana-2 con prompting adaptativo basado en VLM muestra la mayor capacidad para sintetizar objetivos HQ perceptual y fieles al contenido, los cuales pueden servir como la GGT para la entrada LQ. Luego, empleamos Nano-Banana-2 para construir un pipeline de síntesis GGT, que incluye control de calidad en múltiples etapas para garantizar la fiabilidad de los datos, y construimos GGT-100K, un conjunto de datos pareados LQ-HQ que consta de 103,707 pares de entrenamiento y cubre diversas escenas y degradaciones complejas del mundo real. También se establece un conjunto de prueba de 500 pares de imágenes. Experimentos exhaustivos muestran que GGT-100K mejora consistentemente la generalización en el mundo real de una amplia gama de modelos de IR, con beneficios particularmente importantes para el ajuste fino de modelos generativos en tareas de IR. Nuestros resultados sugieren que los MFMs pueden servir como herramientas prácticas para la generación de datos orientada a la restauración, y que GGT-100K es un recurso útil para expandir los límites de generalización de los modelos de IR en el mundo real.

English

Real-world image restoration (IR) is bottlenecked by the scarcity of high-quality paired training data. Synthetic datasets are abundant but often fail to model real-world degradations, while real-world paired datasets are expensive and difficult to capture. As a result, IR models trained on these datasets show limited generalization in real-world scenarios. In this work, we propose Generative Ground Truth (GGT) by using generative multimodal foundation models (MFMs) to produce high-quality (HQ) targets from real-world low-quality (LQ) images. We first conduct a systematic evaluation of nine state-of-the-art MFMs, including Nano-Banana-2 and GPT-Image-2, on images of various scenes and degradation types. The results demonstrate that Nano-Banana-2 with VLM-based adaptive prompting shows the highest capability to synthesize perceptually realistic and content-faithful HQ targets, which can serve as the GGT for the LQ input. We then employ Nano-Banana-2 to build a GGT synthesis pipeline, which involves multi-stage quality control to ensure data reliability, and construct GGT-100K, an LQ-HQ paired dataset comprising 103,707 training pairs and covering diverse scenes and complex real-world degradations. A test set of 500 image pairs is also established. Extensive experiments show that GGT-100K consistently improves the real-world generalization of a wide range of IR models, with particularly strong benefits for finetuning generative models for IR tasks. Our results suggest that MFMs can serve as practical tools for restoration-oriented data generation, and GGT-100K is a useful resource to expand the generalization boundaries of real-world IR models.