SimpleGVR: Una Línea Base Simple para la Superresolución de Video con Cascada Latente

Resumen

Los modelos de difusión latente han surgido como un paradigma líder para la generación eficiente de videos. Sin embargo, a medida que las expectativas de los usuarios se orientan hacia salidas de mayor resolución, depender únicamente del cómputo latente resulta insuficiente. Un enfoque prometedor implica desacoplar el proceso en dos etapas: generación de contenido semántico y síntesis de detalles. La primera emplea un modelo base computacionalmente intensivo en resoluciones más bajas, mientras que la segunda aprovecha un modelo ligero de super-resolución de video en cascada (VSR) para lograr una salida de alta resolución. En este trabajo, nos centramos en estudiar principios clave de diseño para los modelos VSR en cascada, los cuales están poco explorados actualmente. Primero, proponemos dos estrategias de degradación para generar pares de entrenamiento que imiten mejor las características de salida del modelo base, asegurando la alineación entre el modelo VSR y su generador ascendente. Segundo, proporcionamos insights críticos sobre el comportamiento del modelo VSR mediante un análisis sistemático de (1) estrategias de muestreo de pasos temporales y (2) efectos de la amplificación de ruido en entradas de baja resolución (LR). Estos hallazgos informan directamente nuestras innovaciones arquitectónicas y de entrenamiento. Finalmente, introducimos la unidad temporal entrelazada y la atención local dispersa para lograr un entrenamiento e inferencia eficientes, reduciendo drásticamente la sobrecarga computacional. Experimentos extensivos demuestran la superioridad de nuestro marco sobre los métodos existentes, con estudios de ablación que confirman la eficacia de cada elección de diseño. Nuestro trabajo establece una línea base simple pero efectiva para la generación de super-resolución de video en cascada, ofreciendo insights prácticos para guiar avances futuros en sistemas de síntesis en cascada eficientes.

English

Latent diffusion models have emerged as a leading paradigm for efficient video generation. However, as user expectations shift toward higher-resolution outputs, relying solely on latent computation becomes inadequate. A promising approach involves decoupling the process into two stages: semantic content generation and detail synthesis. The former employs a computationally intensive base model at lower resolutions, while the latter leverages a lightweight cascaded video super-resolution (VSR) model to achieve high-resolution output. In this work, we focus on studying key design principles for latter cascaded VSR models, which are underexplored currently. First, we propose two degradation strategies to generate training pairs that better mimic the output characteristics of the base model, ensuring alignment between the VSR model and its upstream generator. Second, we provide critical insights into VSR model behavior through systematic analysis of (1) timestep sampling strategies, (2) noise augmentation effects on low-resolution (LR) inputs. These findings directly inform our architectural and training innovations. Finally, we introduce interleaving temporal unit and sparse local attention to achieve efficient training and inference, drastically reducing computational overhead. Extensive experiments demonstrate the superiority of our framework over existing methods, with ablation studies confirming the efficacy of each design choice. Our work establishes a simple yet effective baseline for cascaded video super-resolution generation, offering practical insights to guide future advancements in efficient cascaded synthesis systems.

SimpleGVR: Una Línea Base Simple para la Superresolución de Video con Cascada Latente

SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution

Resumen

Support