ChatPaper.aiChatPaper

Chain-of-Zoom : Super-résolution extrême via autorégression d'échelle et alignement des préférences

Chain-of-Zoom: Extreme Super-Resolution via Scale Autoregression and Preference Alignment

May 24, 2025
Auteurs: Bryan Sangwoo Kim, Jeongsol Kim, Jong Chul Ye
cs.AI

Résumé

Les modèles modernes de super-résolution d'image unique (SISR) produisent des résultats photo-réalistes pour les facteurs d'échelle sur lesquels ils sont entraînés, mais échouent lorsqu'ils sont sollicités pour des agrandissements bien au-delà de ce régime. Nous abordons ce goulot d'étranglement de scalabilité avec Chain-of-Zoom (CoZ), un cadre indépendant du modèle qui factorise la SISR en une chaîne autorégressive d'états d'échelle intermédiaires avec des prompts conscients de l'échelle multiple. CoZ réutilise de manière répétée un modèle SR de base, décomposant la probabilité conditionnelle en sous-problèmes traitables pour atteindre des résolutions extrêmes sans entraînement supplémentaire. Étant donné que les indices visuels s'estompent à fort grossissement, nous enrichissons chaque étape de zoom avec des prompts textuels conscients de l'échelle multiple, générés par un modèle vision-langage (VLM). L'extracteur de prompts lui-même est affiné à l'aide de l'Optimisation de Politique par Récompense Généralisée (GRPO) avec un VLM critique, alignant ainsi les instructions textuelles sur les préférences humaines. Les expériences montrent qu'un modèle de diffusion SR 4x standard encapsulé dans CoZ atteint des agrandissements dépassant 256x avec une qualité perceptuelle et une fidélité élevées. Page du projet : https://bryanswkim.github.io/chain-of-zoom/ .
English
Modern single-image super-resolution (SISR) models deliver photo-realistic results at the scale factors on which they are trained, but collapse when asked to magnify far beyond that regime. We address this scalability bottleneck with Chain-of-Zoom (CoZ), a model-agnostic framework that factorizes SISR into an autoregressive chain of intermediate scale-states with multi-scale-aware prompts. CoZ repeatedly re-uses a backbone SR model, decomposing the conditional probability into tractable sub-problems to achieve extreme resolutions without additional training. Because visual cues diminish at high magnifications, we augment each zoom step with multi-scale-aware text prompts generated by a vision-language model (VLM). The prompt extractor itself is fine-tuned using Generalized Reward Policy Optimization (GRPO) with a critic VLM, aligning text guidance towards human preference. Experiments show that a standard 4x diffusion SR model wrapped in CoZ attains beyond 256x enlargement with high perceptual quality and fidelity. Project Page: https://bryanswkim.github.io/chain-of-zoom/ .

Summary

AI-Generated Summary

PDF444May 29, 2025