Chain-of-Zoom: Extreme Super-Resolution durch Skalenautoregression und Präferenzabgleich
Chain-of-Zoom: Extreme Super-Resolution via Scale Autoregression and Preference Alignment
May 24, 2025
Autoren: Bryan Sangwoo Kim, Jeongsol Kim, Jong Chul Ye
cs.AI
Zusammenfassung
Moderne Single-Image-Super-Resolution (SISR)-Modelle liefern fotorealistische Ergebnisse bei den Skalierungsfaktoren, auf die sie trainiert wurden, versagen jedoch, wenn sie aufgefordert werden, weit über diesen Bereich hinaus zu vergrößern. Wir adressieren diesen Skalierbarkeitsengpass mit Chain-of-Zoom (CoZ), einem modellagnostischen Framework, das SISR in eine autoregressive Kette von Zwischenskalierungszuständen mit mehrskaligen Prompts faktorisiert. CoZ verwendet ein Backbone-SR-Modell wiederholt, indem es die bedingte Wahrscheinlichkeit in handhabbare Teilprobleme zerlegt, um extreme Auflösungen ohne zusätzliches Training zu erreichen. Da visuelle Hinweise bei hohen Vergrößerungen abnehmen, ergänzen wir jeden Zoom-Schritt mit mehrskaligen Textprompts, die von einem Vision-Language-Modell (VLM) generiert werden. Der Prompt-Extraktor selbst wird mit Generalized Reward Policy Optimization (GRPO) und einem kritischen VLM feinabgestimmt, um die Textanleitung an menschliche Präferenzen anzupassen. Experimente zeigen, dass ein standardmäßiges 4x-Diffusions-SR-Modell, das in CoZ eingebettet ist, eine Vergrößerung über 256x mit hoher wahrgenommener Qualität und Treue erreicht. Projektseite: https://bryanswkim.github.io/chain-of-zoom/.
English
Modern single-image super-resolution (SISR) models deliver photo-realistic
results at the scale factors on which they are trained, but collapse when asked
to magnify far beyond that regime. We address this scalability bottleneck with
Chain-of-Zoom (CoZ), a model-agnostic framework that factorizes SISR into an
autoregressive chain of intermediate scale-states with multi-scale-aware
prompts. CoZ repeatedly re-uses a backbone SR model, decomposing the
conditional probability into tractable sub-problems to achieve extreme
resolutions without additional training. Because visual cues diminish at high
magnifications, we augment each zoom step with multi-scale-aware text prompts
generated by a vision-language model (VLM). The prompt extractor itself is
fine-tuned using Generalized Reward Policy Optimization (GRPO) with a critic
VLM, aligning text guidance towards human preference. Experiments show that a
standard 4x diffusion SR model wrapped in CoZ attains beyond 256x enlargement
with high perceptual quality and fidelity. Project Page:
https://bryanswkim.github.io/chain-of-zoom/ .Summary
AI-Generated Summary