GGT-100K: Generative Ground Truth für generalisierbare Bildwiederherstellung in der realen Welt

Zusammenfassung

Die Bildwiederherstellung (Image Restoration, IR) in realen Szenarien wird durch die Knappheit hochwertiger gepaarter Trainingsdaten eingeschränkt. Synthetische Datensätze sind zwar reichlich vorhanden, bilden jedoch oft reale Degradationen nicht ausreichend ab, während reale gepaarte Datensätze teuer und schwer zu erfassen sind. Folglich zeigen auf diesen Datensätzen trainierte IR-Modelle eine eingeschränkte Generalisierung in realen Szenarien. In dieser Arbeit schlagen wir das Verfahren Generative Ground Truth (GGT) vor, das generative multimodale foundation models (MFMs) nutzt, um aus realen Bildern niedriger Qualität (LQ) hochwertige Ziele (HQ) zu erzeugen. Zunächst führen wir eine systematische Evaluierung von neun modernsten MFMs durch, darunter Nano-Banana-2 und GPT-Image-2, anhand von Bildern verschiedener Szenen und Degradationstypen. Die Ergebnisse zeigen, dass Nano-Banana-2 mit VLM-basiertem adaptiven Prompting die höchste Fähigkeit aufweist, perzeptuell realistische und inhaltstreue HQ-Ziele zu synthetisieren, die als GGT für die LQ-Eingabe dienen können. Anschließend setzen wir Nano-Banana-2 ein, um eine GGT-Synthesepipeline zu entwickeln, die eine mehrstufige Qualitätskontrolle zur Sicherstellung der Datenzuverlässigkeit umfasst, und erstellen GGT-100K, einen LQ-HQ-gepaarten Datensatz mit 103.707 Trainingspaaren, der verschiedene Szenen und komplexe reale Degradationen abdeckt. Zudem wird ein Testsatz mit 500 Bildpaaren etabliert. Umfangreiche Experimente zeigen, dass GGT-100K die Generalisierung in realen Szenarien für eine breite Palette von IR-Modellen konsistent verbessert, mit besonders starken Vorteilen für das Feintuning generativer Modelle für IR-Aufgaben. Unsere Ergebnisse deuten darauf hin, dass MFMs als praktische Werkzeuge für die wiederherstellungsorientierte Datengenerierung dienen können und GGT-100K eine nützliche Ressource darstellt, um die Generalisierungsgrenzen realer IR-Modelle zu erweitern.

English

Real-world image restoration (IR) is bottlenecked by the scarcity of high-quality paired training data. Synthetic datasets are abundant but often fail to model real-world degradations, while real-world paired datasets are expensive and difficult to capture. As a result, IR models trained on these datasets show limited generalization in real-world scenarios. In this work, we propose Generative Ground Truth (GGT) by using generative multimodal foundation models (MFMs) to produce high-quality (HQ) targets from real-world low-quality (LQ) images. We first conduct a systematic evaluation of nine state-of-the-art MFMs, including Nano-Banana-2 and GPT-Image-2, on images of various scenes and degradation types. The results demonstrate that Nano-Banana-2 with VLM-based adaptive prompting shows the highest capability to synthesize perceptually realistic and content-faithful HQ targets, which can serve as the GGT for the LQ input. We then employ Nano-Banana-2 to build a GGT synthesis pipeline, which involves multi-stage quality control to ensure data reliability, and construct GGT-100K, an LQ-HQ paired dataset comprising 103,707 training pairs and covering diverse scenes and complex real-world degradations. A test set of 500 image pairs is also established. Extensive experiments show that GGT-100K consistently improves the real-world generalization of a wide range of IR models, with particularly strong benefits for finetuning generative models for IR tasks. Our results suggest that MFMs can serve as practical tools for restoration-oriented data generation, and GGT-100K is a useful resource to expand the generalization boundaries of real-world IR models.