ChatPaper.aiChatPaper

FlashVideo: Fedeltà Fluida ai Dettagli per la Generazione Efficient di Video ad Alta Risoluzione

FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation

February 7, 2025
Autori: Shilong Zhang, Wenbo Li, Shoufa Chen, Chongjian Ge, Peize Sun, Yida Zhang, Yi Jiang, Zehuan Yuan, Binyue Peng, Ping Luo
cs.AI

Abstract

I modelli di diffusione DiT hanno ottenuto un grande successo nella generazione di testo-video, sfruttando la loro scalabilità in capacità del modello e scala dei dati. L'alta fedeltà dei contenuti e del movimento allineata con i prompt di testo, tuttavia, spesso richiede grandi parametri del modello e un numero sostanziale di valutazioni di funzioni (NFEs). I dettagli realistici e visivamente accattivanti sono tipicamente riflessi in output ad alta risoluzione, amplificando ulteriormente le richieste computazionali soprattutto per i modelli DiT a singolo stadio. Per affrontare queste sfide, proponiamo un nuovo framework a due stadi, FlashVideo, che assegna strategicamente capacità del modello e NFEs tra i due stadi per bilanciare la fedeltà e la qualità della generazione. Nel primo stadio, la fedeltà del prompt è prioritaria attraverso un processo di generazione a bassa risoluzione utilizzando grandi parametri e NFEs sufficienti per migliorare l'efficienza computazionale. Il secondo stadio stabilisce il corrispondente flusso tra basse e alte risoluzioni, generando efficacemente dettagli raffinati con un numero minimo di NFEs. I risultati quantitativi e visivi dimostrano che FlashVideo raggiunge la generazione di video ad alta risoluzione all'avanguardia con una superiore efficienza computazionale. Inoltre, il design a due stadi consente agli utenti di visualizzare l'output iniziale prima di impegnarsi nella generazione a piena risoluzione, riducendo significativamente i costi computazionali e i tempi di attesa, nonché migliorando la commercialità.
English
DiT diffusion models have achieved great success in text-to-video generation, leveraging their scalability in model capacity and data scale. High content and motion fidelity aligned with text prompts, however, often require large model parameters and a substantial number of function evaluations (NFEs). Realistic and visually appealing details are typically reflected in high resolution outputs, further amplifying computational demands especially for single stage DiT models. To address these challenges, we propose a novel two stage framework, FlashVideo, which strategically allocates model capacity and NFEs across stages to balance generation fidelity and quality. In the first stage, prompt fidelity is prioritized through a low resolution generation process utilizing large parameters and sufficient NFEs to enhance computational efficiency. The second stage establishes flow matching between low and high resolutions, effectively generating fine details with minimal NFEs. Quantitative and visual results demonstrate that FlashVideo achieves state-of-the-art high resolution video generation with superior computational efficiency. Additionally, the two-stage design enables users to preview the initial output before committing to full resolution generation, thereby significantly reducing computational costs and wait times as well as enhancing commercial viability .

Summary

AI-Generated Summary

PDF243February 10, 2025