ChatPaper.aiChatPaper

SimpleGVR : Une base simple pour la super-résolution vidéo à cascades latentes

SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution

June 24, 2025
Auteurs: Liangbin Xie, Yu Li, Shian Du, Menghan Xia, Xintao Wang, Fanghua Yu, Ziyan Chen, Pengfei Wan, Jiantao Zhou, Chao Dong
cs.AI

Résumé

Les modèles de diffusion latente sont devenus un paradigme majeur pour la génération efficace de vidéos. Cependant, à mesure que les attentes des utilisateurs évoluent vers des sorties de plus haute résolution, le recours exclusif au calcul latent s’avère insuffisant. Une approche prometteuse consiste à découpler le processus en deux étapes : la génération de contenu sémantique et la synthèse des détails. La première utilise un modèle de base intensif en calcul à des résolutions plus basses, tandis que la seconde exploite un modèle léger de super-résolution vidéo en cascade (VSR) pour obtenir une sortie haute résolution. Dans ce travail, nous nous concentrons sur l’étude des principes clés de conception des modèles VSR en cascade, qui sont actuellement peu explorés. Premièrement, nous proposons deux stratégies de dégradation pour générer des paires d’entraînement qui imitent mieux les caractéristiques de sortie du modèle de base, assurant ainsi un alignement entre le modèle VSR et son générateur en amont. Deuxièmement, nous fournissons des insights critiques sur le comportement des modèles VSR grâce à une analyse systématique de (1) les stratégies d’échantillonnage des pas de temps, (2) les effets de l’augmentation du bruit sur les entrées à basse résolution (LR). Ces résultats éclairent directement nos innovations architecturales et d’entraînement. Enfin, nous introduisons une unité temporelle entrelacée et une attention locale parcimonieuse pour permettre un entraînement et une inférence efficaces, réduisant considérablement la surcharge computationnelle. Des expériences approfondies démontrent la supériorité de notre cadre par rapport aux méthodes existantes, avec des études d’ablation confirmant l’efficacité de chaque choix de conception. Notre travail établit une base simple mais efficace pour la génération de super-résolution vidéo en cascade, offrant des insights pratiques pour guider les avancées futures dans les systèmes de synthèse en cascade efficaces.
English
Latent diffusion models have emerged as a leading paradigm for efficient video generation. However, as user expectations shift toward higher-resolution outputs, relying solely on latent computation becomes inadequate. A promising approach involves decoupling the process into two stages: semantic content generation and detail synthesis. The former employs a computationally intensive base model at lower resolutions, while the latter leverages a lightweight cascaded video super-resolution (VSR) model to achieve high-resolution output. In this work, we focus on studying key design principles for latter cascaded VSR models, which are underexplored currently. First, we propose two degradation strategies to generate training pairs that better mimic the output characteristics of the base model, ensuring alignment between the VSR model and its upstream generator. Second, we provide critical insights into VSR model behavior through systematic analysis of (1) timestep sampling strategies, (2) noise augmentation effects on low-resolution (LR) inputs. These findings directly inform our architectural and training innovations. Finally, we introduce interleaving temporal unit and sparse local attention to achieve efficient training and inference, drastically reducing computational overhead. Extensive experiments demonstrate the superiority of our framework over existing methods, with ablation studies confirming the efficacy of each design choice. Our work establishes a simple yet effective baseline for cascaded video super-resolution generation, offering practical insights to guide future advancements in efficient cascaded synthesis systems.
PDF91June 25, 2025