ChatPaper.aiChatPaper

4KAgent: Agentische Omzetting van Willekeurige Afbeelding naar 4K Superresolutie

4KAgent: Agentic Any Image to 4K Super-Resolution

July 9, 2025
Auteurs: Yushen Zuo, Qi Zheng, Mingyang Wu, Xinrui Jiang, Renjie Li, Jian Wang, Yide Zhang, Gengchen Mai, Lihong V. Wang, James Zou, Xiaoyu Wang, Ming-Hsuan Yang, Zhengzhong Tu
cs.AI

Samenvatting

We presenteren 4KAgent, een uniform agent-gebaseerd super-resolutie generalistisch systeem dat ontworpen is om elke afbeelding universeel op te schalen naar 4K-resolutie (en zelfs hoger, indien iteratief toegepast). Ons systeem kan afbeeldingen transformeren van extreem lage resoluties met ernstige degradaties, bijvoorbeeld sterk vervormde invoeren van 256x256, naar kristalheldere, fotorealistische 4K-uitvoeren. 4KAgent bestaat uit drie kerncomponenten: (1) Profiling, een module die de 4KAgent-pijplijn aanpast op basis van specifieke use cases; (2) Een Perception Agent, die vision-language modellen samen met experts in beeldkwaliteitsbeoordeling gebruikt om de invoerafbeelding te analyseren en een op maat gemaakt herstelplan te maken; en (3) Een Restoration Agent, die het plan uitvoert volgens een recursief uitvoering-reflectie paradigma, geleid door een kwaliteitsgedreven mixture-of-expert beleid om de optimale uitvoer voor elke stap te selecteren. Daarnaast bevat 4KAgent een gespecialiseerde pijplijn voor gezichtsherstel, die gezichtsdetails in portret- en selfiefoto's aanzienlijk verbetert. We evalueren onze 4KAgent grondig over 11 verschillende taakcategorieën die in totaal 26 diverse benchmarks omvatten, waarbij we nieuwe state-of-the-art resultaten behalen in een breed spectrum van beeldvormingsdomeinen. Onze evaluaties beslaan natuurlijke afbeeldingen, portretfoto's, AI-gegenereerde inhoud, satellietbeelden, fluorescentiemicroscopie en medische beeldvorming zoals fundoscopie, echografie en röntgenfoto's, waarbij we superieure prestaties demonstreren in termen van zowel perceptuele (bijv. NIQE, MUSIQ) als trouw (bijv. PSNR) metrieken. Door een nieuw agent-gebaseerd paradigma te introduceren voor low-level vision taken, streven we ernaar om bredere interesse en innovatie te stimuleren binnen vision-centrische autonome agents in diverse onderzoeksgemeenschappen. We zullen alle code, modellen en resultaten vrijgeven op: https://4kagent.github.io.
English
We present 4KAgent, a unified agentic super-resolution generalist system designed to universally upscale any image to 4K resolution (and even higher, if applied iteratively). Our system can transform images from extremely low resolutions with severe degradations, for example, highly distorted inputs at 256x256, into crystal-clear, photorealistic 4K outputs. 4KAgent comprises three core components: (1) Profiling, a module that customizes the 4KAgent pipeline based on bespoke use cases; (2) A Perception Agent, which leverages vision-language models alongside image quality assessment experts to analyze the input image and make a tailored restoration plan; and (3) A Restoration Agent, which executes the plan, following a recursive execution-reflection paradigm, guided by a quality-driven mixture-of-expert policy to select the optimal output for each step. Additionally, 4KAgent embeds a specialized face restoration pipeline, significantly enhancing facial details in portrait and selfie photos. We rigorously evaluate our 4KAgent across 11 distinct task categories encompassing a total of 26 diverse benchmarks, setting new state-of-the-art on a broad spectrum of imaging domains. Our evaluations cover natural images, portrait photos, AI-generated content, satellite imagery, fluorescence microscopy, and medical imaging like fundoscopy, ultrasound, and X-ray, demonstrating superior performance in terms of both perceptual (e.g., NIQE, MUSIQ) and fidelity (e.g., PSNR) metrics. By establishing a novel agentic paradigm for low-level vision tasks, we aim to catalyze broader interest and innovation within vision-centric autonomous agents across diverse research communities. We will release all the code, models, and results at: https://4kagent.github.io.
PDF1044July 10, 2025