GGT-100K: Generatieve Grondwaarheid voor Generaliseerbaar Beeldherstel in de Echte Wereld

Samenvatting

Beeldherstel in de echte wereld (IR) wordt beperkt door de schaarste aan hoogwaardige gepaarde trainingsdata. Synthetische datasets zijn overvloedig, maar slagen er vaak niet in om degradaties in de echte wereld te modelleren, terwijl echte gepaarde datasets duur en moeilijk te verkrijgen zijn. Als gevolg hiervan vertonen IR-modellen die op deze datasets zijn getraind een beperkte generalisatie in realistische scenario's. In dit werk stellen we Generative Ground Truth (GGT) voor door gebruik te maken van generatieve multimodale funderingsmodellen (MFM's) om hoogwaardige (HQ) doelstellingen te produceren uit laagwaardige (LQ) beelden uit de echte wereld. We voeren eerst een systematische evaluatie uit van negen state-of-the-art MFM's, waaronder Nano-Banana-2 en GPT-Image-2, op beelden van verschillende scènes en degradatietypen. De resultaten tonen aan dat Nano-Banana-2 met VLM-gebaseerd adaptief prompten de hoogste capaciteit vertoont om perceptueel realistische en inhoudsgetrouwe HQ-doelstellingen te synthetiseren, die als GGT voor de LQ-invoer kunnen dienen. Vervolgens gebruiken we Nano-Banana-2 om een GGT-synthesepijplijn te bouwen, die meerfasige kwaliteitscontrole omvat om de betrouwbaarheid van gegevens te waarborgen, en construeren we GGT-100K, een LQ-HQ gepaarde dataset bestaande uit 103.707 trainingsparen en die diverse scènes en complexe degradaties uit de echte wereld bestrijkt. Er wordt ook een testset van 500 beeldparen opgesteld. Uitgebreide experimenten tonen aan dat GGT-100K consequent de realistische generalisatie van een breed scala aan IR-modellen verbetert, met bijzonder sterke voordelen voor het finetunen van generatieve modellen voor IR-taken. Onze resultaten suggereren dat MFM's kunnen dienen als praktische hulpmiddelen voor herstelgerichte datageneratie, en GGT-100K is een nuttige bron om de generalisatiegrenzen van realistische IR-modellen te verleggen.

English

Real-world image restoration (IR) is bottlenecked by the scarcity of high-quality paired training data. Synthetic datasets are abundant but often fail to model real-world degradations, while real-world paired datasets are expensive and difficult to capture. As a result, IR models trained on these datasets show limited generalization in real-world scenarios. In this work, we propose Generative Ground Truth (GGT) by using generative multimodal foundation models (MFMs) to produce high-quality (HQ) targets from real-world low-quality (LQ) images. We first conduct a systematic evaluation of nine state-of-the-art MFMs, including Nano-Banana-2 and GPT-Image-2, on images of various scenes and degradation types. The results demonstrate that Nano-Banana-2 with VLM-based adaptive prompting shows the highest capability to synthesize perceptually realistic and content-faithful HQ targets, which can serve as the GGT for the LQ input. We then employ Nano-Banana-2 to build a GGT synthesis pipeline, which involves multi-stage quality control to ensure data reliability, and construct GGT-100K, an LQ-HQ paired dataset comprising 103,707 training pairs and covering diverse scenes and complex real-world degradations. A test set of 500 image pairs is also established. Extensive experiments show that GGT-100K consistently improves the real-world generalization of a wide range of IR models, with particularly strong benefits for finetuning generative models for IR tasks. Our results suggest that MFMs can serve as practical tools for restoration-oriented data generation, and GGT-100K is a useful resource to expand the generalization boundaries of real-world IR models.