ChatPaper.aiChatPaper

FlashVideo: Fließende Treue zum Detail für effiziente Hochauflösungs-Videogenerierung

FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation

February 7, 2025
Autoren: Shilong Zhang, Wenbo Li, Shoufa Chen, Chongjian Ge, Peize Sun, Yida Zhang, Yi Jiang, Zehuan Yuan, Binyue Peng, Ping Luo
cs.AI

Zusammenfassung

DiT-Diffusionsmodelle haben große Erfolge bei der Generierung von Text-zu-Video erzielt, indem sie ihre Skalierbarkeit in Modellkapazität und Datenumfang nutzen. Eine hohe inhaltliche und Bewegungstreue, die mit Textvorgaben übereinstimmt, erfordert jedoch oft große Modellparameter und eine beträchtliche Anzahl von Funktionsauswertungen (NFEs). Realistische und visuell ansprechende Details spiegeln sich typischerweise in hochauflösenden Ausgaben wider, was den Rechenaufwand insbesondere für einstufige DiT-Modelle weiter erhöht. Um diesen Herausforderungen zu begegnen, schlagen wir ein neuartiges zweistufiges Framework namens FlashVideo vor, das die Modellkapazität und NFEs strategisch über die Stufen hinweg verteilt, um die Generierungstreue und -qualität auszubalancieren. In der ersten Stufe wird die Treue zum Vorgabewort durch einen Prozess der Generierung mit geringer Auflösung priorisiert, wobei große Parameter und ausreichende NFEs zur Verbesserung der Recheneffizienz eingesetzt werden. Die zweite Stufe etabliert eine Flussanpassung zwischen niedriger und hoher Auflösung, um feine Details mit minimalen NFEs effektiv zu generieren. Quantitative und visuelle Ergebnisse zeigen, dass FlashVideo eine hochmoderne Generierung von hochauflösenden Videos mit überragender Recheneffizienz erreicht. Darüber hinaus ermöglicht das zweistufige Design den Benutzern, die anfängliche Ausgabe vor der Verpflichtung zur Generierung in voller Auflösung zu überprüfen, wodurch die Rechenkosten und Wartezeiten erheblich reduziert und die kommerzielle Machbarkeit verbessert werden.
English
DiT diffusion models have achieved great success in text-to-video generation, leveraging their scalability in model capacity and data scale. High content and motion fidelity aligned with text prompts, however, often require large model parameters and a substantial number of function evaluations (NFEs). Realistic and visually appealing details are typically reflected in high resolution outputs, further amplifying computational demands especially for single stage DiT models. To address these challenges, we propose a novel two stage framework, FlashVideo, which strategically allocates model capacity and NFEs across stages to balance generation fidelity and quality. In the first stage, prompt fidelity is prioritized through a low resolution generation process utilizing large parameters and sufficient NFEs to enhance computational efficiency. The second stage establishes flow matching between low and high resolutions, effectively generating fine details with minimal NFEs. Quantitative and visual results demonstrate that FlashVideo achieves state-of-the-art high resolution video generation with superior computational efficiency. Additionally, the two-stage design enables users to preview the initial output before committing to full resolution generation, thereby significantly reducing computational costs and wait times as well as enhancing commercial viability .

Summary

AI-Generated Summary

PDF243February 10, 2025