ChatPaper.aiChatPaper

4KAgent: 任意の画像を4K超解像化するエージェント

4KAgent: Agentic Any Image to 4K Super-Resolution

July 9, 2025
著者: Yushen Zuo, Qi Zheng, Mingyang Wu, Xinrui Jiang, Renjie Li, Jian Wang, Yide Zhang, Gengchen Mai, Lihong V. Wang, James Zou, Xiaoyu Wang, Ming-Hsuan Yang, Zhengzhong Tu
cs.AI

要旨

4KAgentを紹介します。これは、あらゆる画像を4K解像度(さらに反復適用することでそれ以上にも)に普遍的にアップスケールするための統一されたエージェント型超解像汎用システムです。本システムは、256x256といった極端に低解像度で深刻な劣化を伴う画像から、水晶のようにクリアで写真のようにリアルな4K出力へと変換することが可能です。4KAgentは3つのコアコンポーネントで構成されています:(1) Profilingモジュールは、特定のユースケースに基づいて4KAgentのパイプラインをカスタマイズします;(2) Perception Agentは、視覚言語モデルと画像品質評価の専門家を活用して入力画像を分析し、最適な修復計画を立てます;(3) Restoration Agentは、品質主導のエキスパート混合ポリシーに従って各ステップで最適な出力を選択する再帰的実行-反映パラダイムに基づいて計画を実行します。さらに、4KAgentは特化した顔修復パイプラインを組み込んでおり、ポートレートやセルフィー写真の顔のディテールを大幅に向上させます。11の異なるタスクカテゴリーにわたる合計26の多様なベンチマークで4KAgentを厳密に評価し、幅広い画像領域で新たな最先端を確立しました。評価対象は、自然画像、ポートレート写真、AI生成コンテンツ、衛星画像、蛍光顕微鏡、そして眼底写真、超音波、X線などの医療画像を含み、知覚的(例:NIQE、MUSIQ)および忠実度(例:PSNR)の両方の指標で優れた性能を実証しました。低レベル視覚タスクのための新たなエージェント型パラダイムを確立することで、多様な研究コミュニティにおける視覚中心の自律エージェントへの幅広い関心とイノベーションを促進することを目指しています。すべてのコード、モデル、結果はhttps://4kagent.github.ioで公開します。
English
We present 4KAgent, a unified agentic super-resolution generalist system designed to universally upscale any image to 4K resolution (and even higher, if applied iteratively). Our system can transform images from extremely low resolutions with severe degradations, for example, highly distorted inputs at 256x256, into crystal-clear, photorealistic 4K outputs. 4KAgent comprises three core components: (1) Profiling, a module that customizes the 4KAgent pipeline based on bespoke use cases; (2) A Perception Agent, which leverages vision-language models alongside image quality assessment experts to analyze the input image and make a tailored restoration plan; and (3) A Restoration Agent, which executes the plan, following a recursive execution-reflection paradigm, guided by a quality-driven mixture-of-expert policy to select the optimal output for each step. Additionally, 4KAgent embeds a specialized face restoration pipeline, significantly enhancing facial details in portrait and selfie photos. We rigorously evaluate our 4KAgent across 11 distinct task categories encompassing a total of 26 diverse benchmarks, setting new state-of-the-art on a broad spectrum of imaging domains. Our evaluations cover natural images, portrait photos, AI-generated content, satellite imagery, fluorescence microscopy, and medical imaging like fundoscopy, ultrasound, and X-ray, demonstrating superior performance in terms of both perceptual (e.g., NIQE, MUSIQ) and fidelity (e.g., PSNR) metrics. By establishing a novel agentic paradigm for low-level vision tasks, we aim to catalyze broader interest and innovation within vision-centric autonomous agents across diverse research communities. We will release all the code, models, and results at: https://4kagent.github.io.
PDF693July 10, 2025