ChatPaper.aiChatPaper

FlashVideo: Stromende Getrouwheid aan Detail voor Efficiënte Generatie van Video's met Hoge Resolutie

FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation

February 7, 2025
Auteurs: Shilong Zhang, Wenbo Li, Shoufa Chen, Chongjian Ge, Peize Sun, Yida Zhang, Yi Jiang, Zehuan Yuan, Binyue Peng, Ping Luo
cs.AI

Samenvatting

DiT-diffusiemodellen hebben grote successen behaald in tekst-naar-video generatie, waarbij ze profiteren van hun schaalbaarheid in modelcapaciteit en datagrootte. Hoge inhouds- en bewegingsgetrouwheid die overeenkomen met tekstprompts vereisen echter vaak grote modelparameters en een aanzienlijk aantal functie-evaluaties (NFE's). Realistische en visueel aantrekkelijke details worden doorgaans weerspiegeld in uitvoer met hoge resolutie, waardoor de computationele eisen verder toenemen, vooral voor DiT-modellen in één fase. Om deze uitdagingen aan te pakken, stellen we een nieuw tweefasenframework voor, FlashVideo, dat op strategische wijze modelcapaciteit en NFE's verdeelt over fasen om generatiegetrouwheid en -kwaliteit in balans te brengen. In de eerste fase heeft promptgetrouwheid prioriteit door een generatieproces met lage resolutie te gebruiken met grote parameters en voldoende NFE's om de computationele efficiëntie te verbeteren. De tweede fase legt een stroomovereenkomst tussen lage en hoge resoluties vast, waarbij fijne details effectief worden gegenereerd met minimale NFE's. Kwantitatieve en visuele resultaten tonen aan dat FlashVideo state-of-the-art video-generatie met hoge resolutie bereikt met superieure computationele efficiëntie. Bovendien stelt het tweefasenontwerp gebruikers in staat om de initiële uitvoer te bekijken voordat ze zich verbinden aan generatie met volledige resolutie, waardoor aanzienlijk de computationele kosten en wachttijden worden verminderd en de commerciële levensvatbaarheid wordt verbeterd.
English
DiT diffusion models have achieved great success in text-to-video generation, leveraging their scalability in model capacity and data scale. High content and motion fidelity aligned with text prompts, however, often require large model parameters and a substantial number of function evaluations (NFEs). Realistic and visually appealing details are typically reflected in high resolution outputs, further amplifying computational demands especially for single stage DiT models. To address these challenges, we propose a novel two stage framework, FlashVideo, which strategically allocates model capacity and NFEs across stages to balance generation fidelity and quality. In the first stage, prompt fidelity is prioritized through a low resolution generation process utilizing large parameters and sufficient NFEs to enhance computational efficiency. The second stage establishes flow matching between low and high resolutions, effectively generating fine details with minimal NFEs. Quantitative and visual results demonstrate that FlashVideo achieves state-of-the-art high resolution video generation with superior computational efficiency. Additionally, the two-stage design enables users to preview the initial output before committing to full resolution generation, thereby significantly reducing computational costs and wait times as well as enhancing commercial viability .

Summary

AI-Generated Summary

PDF243February 10, 2025