SimpleGVR: Uma Linha de Base Simples para Super-Resolução de Vídeo com Cascata Latente

Resumo

Os modelos de difusão latente emergiram como um paradigma líder para a geração eficiente de vídeos. No entanto, à medida que as expectativas dos usuários se voltam para saídas de maior resolução, confiar apenas na computação latente torna-se inadequado. Uma abordagem promissora envolve desacoplar o processo em dois estágios: geração de conteúdo semântico e síntese de detalhes. O primeiro emprega um modelo base computacionalmente intensivo em resoluções mais baixas, enquanto o segundo aproveita um modelo leve de super-resolução de vídeo em cascata (VSR) para alcançar saída de alta resolução. Neste trabalho, focamos em estudar princípios-chave de design para modelos VSR em cascata, que atualmente são pouco explorados. Primeiro, propomos duas estratégias de degradação para gerar pares de treinamento que melhor imitam as características de saída do modelo base, garantindo alinhamento entre o modelo VSR e seu gerador upstream. Segundo, fornecemos insights críticos sobre o comportamento do modelo VSR por meio de análise sistemática de (1) estratégias de amostragem de timesteps, (2) efeitos de aumento de ruído em entradas de baixa resolução (LR). Essas descobertas informam diretamente nossas inovações arquitetônicas e de treinamento. Por fim, introduzimos a unidade temporal intercalada e a atenção local esparsa para alcançar treinamento e inferência eficientes, reduzindo drasticamente a sobrecarga computacional. Experimentos extensivos demonstram a superioridade de nosso framework sobre os métodos existentes, com estudos de ablação confirmando a eficácia de cada escolha de design. Nosso trabalho estabelece uma linha de base simples, porém eficaz, para geração de super-resolução de vídeo em cascata, oferecendo insights práticos para orientar avanços futuros em sistemas de síntese em cascata eficientes.

English

Latent diffusion models have emerged as a leading paradigm for efficient video generation. However, as user expectations shift toward higher-resolution outputs, relying solely on latent computation becomes inadequate. A promising approach involves decoupling the process into two stages: semantic content generation and detail synthesis. The former employs a computationally intensive base model at lower resolutions, while the latter leverages a lightweight cascaded video super-resolution (VSR) model to achieve high-resolution output. In this work, we focus on studying key design principles for latter cascaded VSR models, which are underexplored currently. First, we propose two degradation strategies to generate training pairs that better mimic the output characteristics of the base model, ensuring alignment between the VSR model and its upstream generator. Second, we provide critical insights into VSR model behavior through systematic analysis of (1) timestep sampling strategies, (2) noise augmentation effects on low-resolution (LR) inputs. These findings directly inform our architectural and training innovations. Finally, we introduce interleaving temporal unit and sparse local attention to achieve efficient training and inference, drastically reducing computational overhead. Extensive experiments demonstrate the superiority of our framework over existing methods, with ablation studies confirming the efficacy of each design choice. Our work establishes a simple yet effective baseline for cascaded video super-resolution generation, offering practical insights to guide future advancements in efficient cascaded synthesis systems.

SimpleGVR: Uma Linha de Base Simples para Super-Resolução de Vídeo com Cascata Latente

SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution

Resumo

Support