Uno Studio Preliminare su GPT-4o per il Restauro delle Immagini
A Preliminary Study for GPT-4o on Image Restoration
May 8, 2025
Autori: Hao Yang, Yan Yang, Ruikun Zhang, Liyuan Pan
cs.AI
Abstract
Il modello GPT-4o di OpenAI, che integra input e output multimodali all'interno di un'architettura autoregressiva, ha dimostrato prestazioni senza precedenti nella generazione di immagini. In questo lavoro, ne investigiamo il potenziale impatto sulla comunità di restauro delle immagini. Presentiamo la prima valutazione sistematica di GPT-4o su una varietà di compiti di restauro. I nostri esperimenti rivelano che, sebbene le immagini restaurate da GPT-4o siano visivamente accattivanti, spesso presentano problemi di fedeltà strutturale a livello di pixel rispetto alle immagini di riferimento. Tra i problemi comuni vi sono variazioni nelle proporzioni dell'immagine, spostamenti nelle posizioni e nelle quantità degli oggetti, e cambiamenti nel punto di vista. Per affrontare queste problematiche, prendendo come casi di studio rappresentativi la rimozione della foschia, la rimozione della pioggia e il miglioramento delle immagini in condizioni di scarsa illuminazione, dimostriamo che gli output di GPT-4o possono fungere da potenti prior visivi, migliorando sostanzialmente le prestazioni delle reti esistenti per la rimozione della foschia. Questo lavoro offre linee guida pratiche e un framework di base per facilitare l'integrazione di GPT-4o nelle future pipeline di restauro delle immagini. Speriamo che lo studio sul restauro delle immagini con GPT-4o acceleri l'innovazione nel più ampio campo della generazione di immagini. Per supportare ulteriori ricerche, renderemo disponibili le immagini restaurate da GPT-4o provenienti da oltre 10 dataset ampiamente utilizzati nel restauro delle immagini.
English
OpenAI's GPT-4o model, integrating multi-modal inputs and outputs within an
autoregressive architecture, has demonstrated unprecedented performance in
image generation. In this work, we investigate its potential impact on the
image restoration community. We present the first systematic evaluation of
GPT-4o across diverse restoration tasks. Our experiments reveal that, although
restoration outputs from GPT-4o are visually appealing, they often suffer from
pixel-level structural fidelity when compared to ground-truth images. Common
issues are variations in image proportions, shifts in object positions and
quantities, and changes in viewpoint.To address it, taking image dehazing,
derainning, and low-light enhancement as representative case studies, we show
that GPT-4o's outputs can serve as powerful visual priors, substantially
enhancing the performance of existing dehazing networks. It offers practical
guidelines and a baseline framework to facilitate the integration of GPT-4o
into future image restoration pipelines. We hope the study on GPT-4o image
restoration will accelerate innovation in the broader field of image generation
areas. To support further research, we will release GPT-4o-restored images from
over 10 widely used image restoration datasets.