FlashVideo: Fidélité fluide aux détails pour une génération efficace de vidéos haute résolution
FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation
February 7, 2025
Auteurs: Shilong Zhang, Wenbo Li, Shoufa Chen, Chongjian Ge, Peize Sun, Yida Zhang, Yi Jiang, Zehuan Yuan, Binyue Peng, Ping Luo
cs.AI
Résumé
Les modèles de diffusion DiT ont connu un grand succès dans la génération de texte vers vidéo, en exploitant leur extensibilité en termes de capacité du modèle et d'échelle des données. Une fidélité élevée au contenu et au mouvement alignée sur les indications textuelles nécessite cependant souvent de grands paramètres de modèle et un nombre substantiel d'évaluations de fonctions (NFE). Les détails réalistes et visuellement attrayants se reflètent généralement dans des sorties haute résolution, amplifiant davantage les exigences computationnelles, en particulier pour les modèles DiT à un seul stade. Pour relever ces défis, nous proposons un nouveau cadre en deux étapes, FlashVideo, qui alloue de manière stratégique la capacité du modèle et les NFE à travers les étapes pour équilibrer la fidélité et la qualité de génération. Dans la première étape, la fidélité de l'indication est priorisée à travers un processus de génération basse résolution utilisant de grands paramètres et un nombre suffisant de NFE pour améliorer l'efficacité computationnelle. La deuxième étape établit une correspondance de flux entre les résolutions basse et haute, générant efficacement des détails fins avec un nombre minimal de NFE. Les résultats quantitatifs et visuels démontrent que FlashVideo atteint un état de l'art dans la génération de vidéos haute résolution avec une efficacité computationnelle supérieure. De plus, la conception en deux étapes permet aux utilisateurs de prévisualiser la sortie initiale avant de s'engager dans une génération en pleine résolution, réduisant ainsi significativement les coûts computationnels et les temps d'attente, tout en améliorant la viabilité commerciale.
English
DiT diffusion models have achieved great success in text-to-video generation,
leveraging their scalability in model capacity and data scale. High content and
motion fidelity aligned with text prompts, however, often require large model
parameters and a substantial number of function evaluations (NFEs). Realistic
and visually appealing details are typically reflected in high resolution
outputs, further amplifying computational demands especially for single stage
DiT models. To address these challenges, we propose a novel two stage
framework, FlashVideo, which strategically allocates model capacity and NFEs
across stages to balance generation fidelity and quality. In the first stage,
prompt fidelity is prioritized through a low resolution generation process
utilizing large parameters and sufficient NFEs to enhance computational
efficiency. The second stage establishes flow matching between low and high
resolutions, effectively generating fine details with minimal NFEs.
Quantitative and visual results demonstrate that FlashVideo achieves
state-of-the-art high resolution video generation with superior computational
efficiency. Additionally, the two-stage design enables users to preview the
initial output before committing to full resolution generation, thereby
significantly reducing computational costs and wait times as well as enhancing
commercial viability .Summary
AI-Generated Summary