Um Estudo Preliminar sobre GPT-4o na Restauração de Imagens
A Preliminary Study for GPT-4o on Image Restoration
May 8, 2025
Autores: Hao Yang, Yan Yang, Ruikun Zhang, Liyuan Pan
cs.AI
Resumo
O modelo GPT-4o da OpenAI, que integra entradas e saídas multimodais em uma arquitetura autoregressiva, demonstrou desempenho sem precedentes na geração de imagens. Neste trabalho, investigamos seu potencial impacto na comunidade de restauração de imagens. Apresentamos a primeira avaliação sistemática do GPT-4o em diversas tarefas de restauração. Nossos experimentos revelam que, embora as saídas de restauração do GPT-4o sejam visualmente atraentes, elas frequentemente apresentam problemas de fidelidade estrutural em nível de pixel quando comparadas às imagens de referência. Questões comuns incluem variações nas proporções da imagem, deslocamentos nas posições e quantidades de objetos, e mudanças no ponto de vista. Para abordar isso, utilizando a remoção de névoa, a remoção de chuva e o aprimoramento de imagens com pouca luz como estudos de caso representativos, mostramos que as saídas do GPT-4o podem servir como poderosos priores visuais, melhorando substancialmente o desempenho de redes existentes de remoção de névoa. O trabalho oferece diretrizes práticas e uma estrutura de referência para facilitar a integração do GPT-4o em futuros pipelines de restauração de imagens. Esperamos que o estudo sobre a restauração de imagens com GPT-4o acelere a inovação no campo mais amplo de geração de imagens. Para apoiar pesquisas futuras, disponibilizaremos imagens restauradas pelo GPT-4o de mais de 10 conjuntos de dados amplamente utilizados em restauração de imagens.
English
OpenAI's GPT-4o model, integrating multi-modal inputs and outputs within an
autoregressive architecture, has demonstrated unprecedented performance in
image generation. In this work, we investigate its potential impact on the
image restoration community. We present the first systematic evaluation of
GPT-4o across diverse restoration tasks. Our experiments reveal that, although
restoration outputs from GPT-4o are visually appealing, they often suffer from
pixel-level structural fidelity when compared to ground-truth images. Common
issues are variations in image proportions, shifts in object positions and
quantities, and changes in viewpoint.To address it, taking image dehazing,
derainning, and low-light enhancement as representative case studies, we show
that GPT-4o's outputs can serve as powerful visual priors, substantially
enhancing the performance of existing dehazing networks. It offers practical
guidelines and a baseline framework to facilitate the integration of GPT-4o
into future image restoration pipelines. We hope the study on GPT-4o image
restoration will accelerate innovation in the broader field of image generation
areas. To support further research, we will release GPT-4o-restored images from
over 10 widely used image restoration datasets.