Une étude préliminaire sur GPT-4o pour la restauration d'images
A Preliminary Study for GPT-4o on Image Restoration
May 8, 2025
Auteurs: Hao Yang, Yan Yang, Ruikun Zhang, Liyuan Pan
cs.AI
Résumé
Le modèle GPT-4o d'OpenAI, intégrant des entrées et sorties multimodales au sein d'une architecture autorégressive, a démontré des performances sans précédent en génération d'images. Dans ce travail, nous étudions son impact potentiel sur la communauté de la restauration d'images. Nous présentons la première évaluation systématique de GPT-4o à travers diverses tâches de restauration. Nos expériences révèlent que, bien que les sorties de restauration de GPT-4o soient visuellement attrayantes, elles souffrent souvent d'une fidélité structurelle au niveau des pixels par rapport aux images de référence. Les problèmes courants incluent des variations dans les proportions des images, des décalages dans les positions et quantités d'objets, ainsi que des changements de point de vue. Pour y remédier, en prenant comme études de cas représentatives la suppression de brouillard, la suppression de pluie et l'amélioration des images en faible luminosité, nous montrons que les sorties de GPT-4o peuvent servir de puissants a priori visuels, améliorant considérablement les performances des réseaux existants de suppression de brouillard. Cela offre des directives pratiques et un cadre de référence pour faciliter l'intégration de GPT-4o dans les futurs pipelines de restauration d'images. Nous espérons que l'étude sur la restauration d'images par GPT-4o accélérera l'innovation dans le domaine plus large de la génération d'images. Pour soutenir des recherches ultérieures, nous publierons les images restaurées par GPT-4o provenant de plus de 10 ensembles de données de restauration d'images largement utilisés.
English
OpenAI's GPT-4o model, integrating multi-modal inputs and outputs within an
autoregressive architecture, has demonstrated unprecedented performance in
image generation. In this work, we investigate its potential impact on the
image restoration community. We present the first systematic evaluation of
GPT-4o across diverse restoration tasks. Our experiments reveal that, although
restoration outputs from GPT-4o are visually appealing, they often suffer from
pixel-level structural fidelity when compared to ground-truth images. Common
issues are variations in image proportions, shifts in object positions and
quantities, and changes in viewpoint.To address it, taking image dehazing,
derainning, and low-light enhancement as representative case studies, we show
that GPT-4o's outputs can serve as powerful visual priors, substantially
enhancing the performance of existing dehazing networks. It offers practical
guidelines and a baseline framework to facilitate the integration of GPT-4o
into future image restoration pipelines. We hope the study on GPT-4o image
restoration will accelerate innovation in the broader field of image generation
areas. To support further research, we will release GPT-4o-restored images from
over 10 widely used image restoration datasets.Summary
AI-Generated Summary