Chain-of-Zoom: Extreme Super-Resolutie via Schaal Autoregressie en Voorkeursafstemming
Chain-of-Zoom: Extreme Super-Resolution via Scale Autoregression and Preference Alignment
May 24, 2025
Auteurs: Bryan Sangwoo Kim, Jeongsol Kim, Jong Chul Ye
cs.AI
Samenvatting
Moderne single-image super-resolutie (SISR) modellen leveren foto-realistische resultaten bij de schaalfactoren waarop ze zijn getraind, maar falen wanneer ze gevraagd worden om veel verder te vergroten dan dat regime. Wij pakken dit schaalbaarheidsprobleem aan met Chain-of-Zoom (CoZ), een model-agnostisch raamwerk dat SISR factoriseert in een autoregressieve keten van tussenliggende schaaltoestanden met multi-schaalbewuste prompts. CoZ hergebruikt herhaaldelijk een backbone SR-model, waarbij de conditionele waarschijnlijkheid wordt opgesplitst in behapbare subproblemen om extreme resoluties te bereiken zonder aanvullende training. Omdat visuele aanwijzingen afnemen bij hoge vergrotingen, verrijken we elke zoomstap met multi-schaalbewuste tekstprompts die worden gegenereerd door een vision-language model (VLM). De prompt-extractor zelf wordt afgestemd met Generalized Reward Policy Optimization (GRPO) met een criticus-VLM, waarbij de tekstbegeleiding wordt afgestemd op menselijke voorkeuren. Experimenten tonen aan dat een standaard 4x diffusie SR-model ingepakt in CoZ een vergroting van meer dan 256x bereikt met hoge perceptuele kwaliteit en trouw. Projectpagina: https://bryanswkim.github.io/chain-of-zoom/.
English
Modern single-image super-resolution (SISR) models deliver photo-realistic
results at the scale factors on which they are trained, but collapse when asked
to magnify far beyond that regime. We address this scalability bottleneck with
Chain-of-Zoom (CoZ), a model-agnostic framework that factorizes SISR into an
autoregressive chain of intermediate scale-states with multi-scale-aware
prompts. CoZ repeatedly re-uses a backbone SR model, decomposing the
conditional probability into tractable sub-problems to achieve extreme
resolutions without additional training. Because visual cues diminish at high
magnifications, we augment each zoom step with multi-scale-aware text prompts
generated by a vision-language model (VLM). The prompt extractor itself is
fine-tuned using Generalized Reward Policy Optimization (GRPO) with a critic
VLM, aligning text guidance towards human preference. Experiments show that a
standard 4x diffusion SR model wrapped in CoZ attains beyond 256x enlargement
with high perceptual quality and fidelity. Project Page:
https://bryanswkim.github.io/chain-of-zoom/ .