ChatPaper.aiChatPaper

Een voorlopige studie voor GPT-4o over beeldrestauratie

A Preliminary Study for GPT-4o on Image Restoration

May 8, 2025
Auteurs: Hao Yang, Yan Yang, Ruikun Zhang, Liyuan Pan
cs.AI

Samenvatting

Het GPT-4o-model van OpenAI, dat multi-modale invoer en uitvoer integreert binnen een autoregressieve architectuur, heeft een ongekende prestatie getoond in beeldgeneratie. In dit werk onderzoeken we het potentiële effect ervan op de gemeenschap voor beeldrestauratie. We presenteren de eerste systematische evaluatie van GPT-4o over diverse restauratietaken. Onze experimenten tonen aan dat, hoewel de restauratie-uitvoer van GPT-4o visueel aantrekkelijk is, deze vaak lijdt onder pixel-niveau structurele trouw in vergelijking met grondwaarheidbeelden. Veelvoorkomende problemen zijn variaties in beeldverhoudingen, verschuivingen in objectposities en -aantallen, en veranderingen in gezichtspunten. Om dit aan te pakken, nemen we beeldontsmetting, ontregening en verbetering van weinig licht als representatieve casestudies, en tonen we aan dat de uitvoer van GPT-4o kan dienen als krachtige visuele prior, die de prestaties van bestaande ontsmettingsnetwerken aanzienlijk verbetert. Het biedt praktische richtlijnen en een basisraamwerk om de integratie van GPT-4o in toekomstige beeldrestauratiepijplijnen te vergemakkelijken. We hopen dat de studie naar GPT-4o-beeldrestauratie innovatie zal versnellen in het bredere veld van beeldgeneratiegebieden. Om verder onderzoek te ondersteunen, zullen we GPT-4o-gerestaureerde beelden vrijgeven van meer dan 10 veelgebruikte beeldrestauratiedatasets.
English
OpenAI's GPT-4o model, integrating multi-modal inputs and outputs within an autoregressive architecture, has demonstrated unprecedented performance in image generation. In this work, we investigate its potential impact on the image restoration community. We present the first systematic evaluation of GPT-4o across diverse restoration tasks. Our experiments reveal that, although restoration outputs from GPT-4o are visually appealing, they often suffer from pixel-level structural fidelity when compared to ground-truth images. Common issues are variations in image proportions, shifts in object positions and quantities, and changes in viewpoint.To address it, taking image dehazing, derainning, and low-light enhancement as representative case studies, we show that GPT-4o's outputs can serve as powerful visual priors, substantially enhancing the performance of existing dehazing networks. It offers practical guidelines and a baseline framework to facilitate the integration of GPT-4o into future image restoration pipelines. We hope the study on GPT-4o image restoration will accelerate innovation in the broader field of image generation areas. To support further research, we will release GPT-4o-restored images from over 10 widely used image restoration datasets.
PDF102May 12, 2025