SimpleGVR: Una Línea Base Simple para la Superresolución de Video con Cascada Latente
SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution
June 24, 2025
Autores: Liangbin Xie, Yu Li, Shian Du, Menghan Xia, Xintao Wang, Fanghua Yu, Ziyan Chen, Pengfei Wan, Jiantao Zhou, Chao Dong
cs.AI
Resumen
Los modelos de difusión latente han surgido como un paradigma líder para la generación eficiente de videos. Sin embargo, a medida que las expectativas de los usuarios se orientan hacia salidas de mayor resolución, depender únicamente del cómputo latente resulta insuficiente. Un enfoque prometedor implica desacoplar el proceso en dos etapas: generación de contenido semántico y síntesis de detalles. La primera emplea un modelo base computacionalmente intensivo en resoluciones más bajas, mientras que la segunda aprovecha un modelo ligero de super-resolución de video en cascada (VSR) para lograr una salida de alta resolución. En este trabajo, nos centramos en estudiar principios clave de diseño para los modelos VSR en cascada, los cuales están poco explorados actualmente. Primero, proponemos dos estrategias de degradación para generar pares de entrenamiento que imiten mejor las características de salida del modelo base, asegurando la alineación entre el modelo VSR y su generador ascendente. Segundo, proporcionamos insights críticos sobre el comportamiento del modelo VSR mediante un análisis sistemático de (1) estrategias de muestreo de pasos temporales y (2) efectos de la amplificación de ruido en entradas de baja resolución (LR). Estos hallazgos informan directamente nuestras innovaciones arquitectónicas y de entrenamiento. Finalmente, introducimos la unidad temporal entrelazada y la atención local dispersa para lograr un entrenamiento e inferencia eficientes, reduciendo drásticamente la sobrecarga computacional. Experimentos extensivos demuestran la superioridad de nuestro marco sobre los métodos existentes, con estudios de ablación que confirman la eficacia de cada elección de diseño. Nuestro trabajo establece una línea base simple pero efectiva para la generación de super-resolución de video en cascada, ofreciendo insights prácticos para guiar avances futuros en sistemas de síntesis en cascada eficientes.
English
Latent diffusion models have emerged as a leading paradigm for efficient
video generation. However, as user expectations shift toward higher-resolution
outputs, relying solely on latent computation becomes inadequate. A promising
approach involves decoupling the process into two stages: semantic content
generation and detail synthesis. The former employs a computationally intensive
base model at lower resolutions, while the latter leverages a lightweight
cascaded video super-resolution (VSR) model to achieve high-resolution output.
In this work, we focus on studying key design principles for latter cascaded
VSR models, which are underexplored currently. First, we propose two
degradation strategies to generate training pairs that better mimic the output
characteristics of the base model, ensuring alignment between the VSR model and
its upstream generator. Second, we provide critical insights into VSR model
behavior through systematic analysis of (1) timestep sampling strategies, (2)
noise augmentation effects on low-resolution (LR) inputs. These findings
directly inform our architectural and training innovations. Finally, we
introduce interleaving temporal unit and sparse local attention to achieve
efficient training and inference, drastically reducing computational overhead.
Extensive experiments demonstrate the superiority of our framework over
existing methods, with ablation studies confirming the efficacy of each design
choice. Our work establishes a simple yet effective baseline for cascaded video
super-resolution generation, offering practical insights to guide future
advancements in efficient cascaded synthesis systems.