GGT-100K : Vérité Terrain Générative pour la Restauration d'Images Réelles Généralisable

Résumé

La restauration d’images réelles (RIR) est limitée par la rareté des données d’entraînement appariées de haute qualité. Les ensembles de données synthétiques sont abondants mais échouent souvent à modéliser les dégradations réelles, tandis que les ensembles de données appariées réelles sont coûteux et difficiles à capturer. Par conséquent, les modèles de RIR entraînés sur ces ensembles présentent une généralisation limitée dans des scénarios réels. Dans ce travail, nous proposons la Vérité-Terrain Générative (VTG) en utilisant des modèles fondamentaux multimodaux (MFM) génératifs pour produire des cibles de haute qualité (HQ) à partir d’images réelles de basse qualité (LQ). Nous menons d’abord une évaluation systématique de neuf MFM de pointe, dont Nano-Banana-2 et GPT-Image-2, sur des images de diverses scènes et types de dégradations. Les résultats montrent que Nano-Banana-2 avec amorçage adaptatif basé sur VLM présente la plus grande capacité à synthétiser des cibles HQ perceptuellement réalistes et fidèles au contenu, pouvant servir de VTG pour l’entrée LQ. Nous utilisons ensuite Nano-Banana-2 pour construire un pipeline de synthèse VTG, qui comporte un contrôle qualité multi-étapes pour garantir la fiabilité des données, et nous construisons GGT-100K, un ensemble de données appariées LQ-HQ comprenant 103 707 paires d’entraînement et couvrant diverses scènes et dégradations réelles complexes. Un ensemble de test de 500 paires d’images est également établi. Des expériences approfondies montrent que GGT-100K améliore systématiquement la généralisation réelle d’une large gamme de modèles de RIR, avec des avantages particulièrement marqués pour l’affinage de modèles génératifs pour des tâches de RIR. Nos résultats suggèrent que les MFM peuvent servir d’outils pratiques pour la génération de données orientée restauration, et que GGT-100K constitue une ressource utile pour élargir les frontières de généralisation des modèles de RIR réels.

English

Real-world image restoration (IR) is bottlenecked by the scarcity of high-quality paired training data. Synthetic datasets are abundant but often fail to model real-world degradations, while real-world paired datasets are expensive and difficult to capture. As a result, IR models trained on these datasets show limited generalization in real-world scenarios. In this work, we propose Generative Ground Truth (GGT) by using generative multimodal foundation models (MFMs) to produce high-quality (HQ) targets from real-world low-quality (LQ) images. We first conduct a systematic evaluation of nine state-of-the-art MFMs, including Nano-Banana-2 and GPT-Image-2, on images of various scenes and degradation types. The results demonstrate that Nano-Banana-2 with VLM-based adaptive prompting shows the highest capability to synthesize perceptually realistic and content-faithful HQ targets, which can serve as the GGT for the LQ input. We then employ Nano-Banana-2 to build a GGT synthesis pipeline, which involves multi-stage quality control to ensure data reliability, and construct GGT-100K, an LQ-HQ paired dataset comprising 103,707 training pairs and covering diverse scenes and complex real-world degradations. A test set of 500 image pairs is also established. Extensive experiments show that GGT-100K consistently improves the real-world generalization of a wide range of IR models, with particularly strong benefits for finetuning generative models for IR tasks. Our results suggest that MFMs can serve as practical tools for restoration-oriented data generation, and GGT-100K is a useful resource to expand the generalization boundaries of real-world IR models.