Предварительное исследование GPT-4o в области восстановления изображений
A Preliminary Study for GPT-4o on Image Restoration
May 8, 2025
Авторы: Hao Yang, Yan Yang, Ruikun Zhang, Liyuan Pan
cs.AI
Аннотация
Модель GPT-4o от OpenAI, интегрирующая многомодальные входные и выходные данные в рамках авторегрессивной архитектуры, продемонстрировала беспрецедентную производительность в генерации изображений. В данной работе мы исследуем её потенциальное влияние на сообщество, занимающееся восстановлением изображений. Мы представляем первую систематическую оценку GPT-4o в разнообразных задачах восстановления. Наши эксперименты показывают, что, хотя результаты восстановления GPT-4o визуально привлекательны, они часто страдают от недостатка структурной точности на уровне пикселей по сравнению с эталонными изображениями. Типичные проблемы включают изменения пропорций изображений, смещения позиций и количества объектов, а также изменения точки зрения. Для решения этих проблем, используя задачи удаления тумана, устранения дождя и улучшения качества изображений при низкой освещённости в качестве репрезентативных примеров, мы показываем, что выходные данные GPT-4o могут служить мощными визуальными априорными данными, значительно улучшая производительность существующих сетей для удаления тумана. Это предлагает практические рекомендации и базовую структуру для облегчения интеграции GPT-4o в будущие конвейеры восстановления изображений. Мы надеемся, что исследование восстановления изображений с помощью GPT-4o ускорит инновации в более широкой области генерации изображений. Для поддержки дальнейших исследований мы опубликуем восстановленные GPT-4o изображения из более чем 10 широко используемых наборов данных для восстановления изображений.
English
OpenAI's GPT-4o model, integrating multi-modal inputs and outputs within an
autoregressive architecture, has demonstrated unprecedented performance in
image generation. In this work, we investigate its potential impact on the
image restoration community. We present the first systematic evaluation of
GPT-4o across diverse restoration tasks. Our experiments reveal that, although
restoration outputs from GPT-4o are visually appealing, they often suffer from
pixel-level structural fidelity when compared to ground-truth images. Common
issues are variations in image proportions, shifts in object positions and
quantities, and changes in viewpoint.To address it, taking image dehazing,
derainning, and low-light enhancement as representative case studies, we show
that GPT-4o's outputs can serve as powerful visual priors, substantially
enhancing the performance of existing dehazing networks. It offers practical
guidelines and a baseline framework to facilitate the integration of GPT-4o
into future image restoration pipelines. We hope the study on GPT-4o image
restoration will accelerate innovation in the broader field of image generation
areas. To support further research, we will release GPT-4o-restored images from
over 10 widely used image restoration datasets.Summary
AI-Generated Summary