GPT-4oを用いた画像復元に関する予備的研究
A Preliminary Study for GPT-4o on Image Restoration
May 8, 2025
著者: Hao Yang, Yan Yang, Ruikun Zhang, Liyuan Pan
cs.AI
要旨
OpenAIのGPT-4oモデルは、自己回帰型アーキテクチャ内でマルチモーダルな入出力を統合し、画像生成において前例のない性能を発揮しています。本研究では、このモデルが画像復元コミュニティに与える潜在的な影響を調査します。私たちは、GPT-4oを多様な復元タスクにわたって初めて体系的に評価しました。実験の結果、GPT-4oによる復元出力は視覚的に魅力的であるものの、ピクセルレベルの構造的忠実度において、正解画像と比較してしばしば問題があることが明らかになりました。一般的な問題として、画像の比率の変化、オブジェクトの位置や数のずれ、視点の変化などが挙げられます。これに対処するため、画像の曇り除去、雨除去、低照度強調を代表的なケーススタディとして取り上げ、GPT-4oの出力が強力な視覚的プライアとして機能し、既存の曇り除去ネットワークの性能を大幅に向上させることを示します。本研究は、GPT-4oを将来の画像復元パイプラインに統合するための実用的なガイドラインとベースラインフレームワークを提供します。GPT-4oによる画像復元の研究が、画像生成分野全体の革新を加速することを期待しています。さらなる研究を支援するため、10以上の広く使用されている画像復元データセットからGPT-4oによって復元された画像を公開する予定です。
English
OpenAI's GPT-4o model, integrating multi-modal inputs and outputs within an
autoregressive architecture, has demonstrated unprecedented performance in
image generation. In this work, we investigate its potential impact on the
image restoration community. We present the first systematic evaluation of
GPT-4o across diverse restoration tasks. Our experiments reveal that, although
restoration outputs from GPT-4o are visually appealing, they often suffer from
pixel-level structural fidelity when compared to ground-truth images. Common
issues are variations in image proportions, shifts in object positions and
quantities, and changes in viewpoint.To address it, taking image dehazing,
derainning, and low-light enhancement as representative case studies, we show
that GPT-4o's outputs can serve as powerful visual priors, substantially
enhancing the performance of existing dehazing networks. It offers practical
guidelines and a baseline framework to facilitate the integration of GPT-4o
into future image restoration pipelines. We hope the study on GPT-4o image
restoration will accelerate innovation in the broader field of image generation
areas. To support further research, we will release GPT-4o-restored images from
over 10 widely used image restoration datasets.Summary
AI-Generated Summary