SimpleGVR: Eine einfache Baseline für latente kaskadierte Video-Superauflösung

papers.abstract

Latent-Diffusionsmodelle haben sich als führendes Paradigma für die effiziente Videogenerierung etabliert. Da sich die Nutzererwartungen jedoch zunehmend auf höher aufgelöste Ausgaben verlagern, reicht die alleinige Abhängigkeit von latenter Berechnung nicht mehr aus. Ein vielversprechender Ansatz besteht darin, den Prozess in zwei Stufen zu entkoppeln: die Generierung semantischer Inhalte und die Synthese von Details. Erstere verwendet ein rechenintensives Basismodell bei niedrigeren Auflösungen, während letztere ein leichtgewichtiges kaskadiertes Video-Super-Resolution (VSR)-Modell nutzt, um eine hochauflösende Ausgabe zu erzielen. In dieser Arbeit konzentrieren wir uns auf die Untersuchung zentraler Designprinzipien für kaskadierte VSR-Modelle, die derzeit noch unzureichend erforscht sind. Zunächst schlagen wir zwei Degradationsstrategien vor, um Trainingspaare zu generieren, die die Ausgabeeigenschaften des Basismodells besser nachahmen und so die Abstimmung zwischen dem VSR-Modell und seinem vorgelagerten Generator sicherstellen. Zweitens liefern wir wichtige Erkenntnisse zum Verhalten von VSR-Modellen durch systematische Analysen von (1) Zeitschritt-Sampling-Strategien und (2) den Auswirkungen von Rauschaugmentationen auf niedrig aufgelöste (LR) Eingaben. Diese Erkenntnisse leiten direkt unsere architektonischen und Trainingsinnovationen. Schließlich führen wir verschachtelte temporale Einheiten und sparsame lokale Aufmerksamkeit ein, um effizientes Training und Inferenz zu ermöglichen und den Rechenaufwand erheblich zu reduzieren. Umfangreiche Experimente demonstrieren die Überlegenheit unseres Frameworks gegenüber bestehenden Methoden, wobei Ablationsstudien die Wirksamkeit jedes Designentscheids bestätigen. Unsere Arbeit etabliert eine einfache, aber effektive Baseline für die kaskadierte Video-Super-Resolution-Generierung und bietet praktische Einblicke, um zukünftige Fortschritte in effizienten kaskadierten Synthesesystemen zu leiten.

English

Latent diffusion models have emerged as a leading paradigm for efficient video generation. However, as user expectations shift toward higher-resolution outputs, relying solely on latent computation becomes inadequate. A promising approach involves decoupling the process into two stages: semantic content generation and detail synthesis. The former employs a computationally intensive base model at lower resolutions, while the latter leverages a lightweight cascaded video super-resolution (VSR) model to achieve high-resolution output. In this work, we focus on studying key design principles for latter cascaded VSR models, which are underexplored currently. First, we propose two degradation strategies to generate training pairs that better mimic the output characteristics of the base model, ensuring alignment between the VSR model and its upstream generator. Second, we provide critical insights into VSR model behavior through systematic analysis of (1) timestep sampling strategies, (2) noise augmentation effects on low-resolution (LR) inputs. These findings directly inform our architectural and training innovations. Finally, we introduce interleaving temporal unit and sparse local attention to achieve efficient training and inference, drastically reducing computational overhead. Extensive experiments demonstrate the superiority of our framework over existing methods, with ablation studies confirming the efficacy of each design choice. Our work establishes a simple yet effective baseline for cascaded video super-resolution generation, offering practical insights to guide future advancements in efficient cascaded synthesis systems.

SimpleGVR: Eine einfache Baseline für latente kaskadierte Video-Superauflösung

SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution

papers.abstract

Support