ChatPaper.aiChatPaper

Un Estudio Preliminar sobre GPT-4o en la Restauración de Imágenes

A Preliminary Study for GPT-4o on Image Restoration

May 8, 2025
Autores: Hao Yang, Yan Yang, Ruikun Zhang, Liyuan Pan
cs.AI

Resumen

El modelo GPT-4o de OpenAI, que integra entradas y salidas multimodales dentro de una arquitectura autorregresiva, ha demostrado un rendimiento sin precedentes en la generación de imágenes. En este trabajo, investigamos su impacto potencial en la comunidad de restauración de imágenes. Presentamos la primera evaluación sistemática de GPT-4o en diversas tareas de restauración. Nuestros experimentos revelan que, aunque las salidas de restauración de GPT-4o son visualmente atractivas, a menudo presentan problemas de fidelidad estructural a nivel de píxel en comparación con las imágenes de referencia. Los problemas comunes incluyen variaciones en las proporciones de la imagen, desplazamientos en las posiciones y cantidades de objetos, y cambios en el punto de vista. Para abordar esto, tomando como estudios de caso representativos la eliminación de niebla, la eliminación de lluvia y la mejora de imágenes con poca luz, demostramos que las salidas de GPT-4o pueden servir como poderosos antecedentes visuales, mejorando sustancialmente el rendimiento de las redes existentes de eliminación de niebla. Ofrecemos pautas prácticas y un marco de referencia para facilitar la integración de GPT-4o en futuros flujos de trabajo de restauración de imágenes. Esperamos que el estudio sobre la restauración de imágenes con GPT-4o acelere la innovación en el campo más amplio de la generación de imágenes. Para apoyar investigaciones futuras, publicaremos imágenes restauradas por GPT-4o de más de 10 conjuntos de datos ampliamente utilizados en restauración de imágenes.
English
OpenAI's GPT-4o model, integrating multi-modal inputs and outputs within an autoregressive architecture, has demonstrated unprecedented performance in image generation. In this work, we investigate its potential impact on the image restoration community. We present the first systematic evaluation of GPT-4o across diverse restoration tasks. Our experiments reveal that, although restoration outputs from GPT-4o are visually appealing, they often suffer from pixel-level structural fidelity when compared to ground-truth images. Common issues are variations in image proportions, shifts in object positions and quantities, and changes in viewpoint.To address it, taking image dehazing, derainning, and low-light enhancement as representative case studies, we show that GPT-4o's outputs can serve as powerful visual priors, substantially enhancing the performance of existing dehazing networks. It offers practical guidelines and a baseline framework to facilitate the integration of GPT-4o into future image restoration pipelines. We hope the study on GPT-4o image restoration will accelerate innovation in the broader field of image generation areas. To support further research, we will release GPT-4o-restored images from over 10 widely used image restoration datasets.

Summary

AI-Generated Summary

PDF52May 12, 2025