ChatPaper.aiChatPaper

FlashVideo: Fidelidade Fluente aos Detalhes para Geração Eficiente de Vídeos em Alta Resolução

FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation

February 7, 2025
Autores: Shilong Zhang, Wenbo Li, Shoufa Chen, Chongjian Ge, Peize Sun, Yida Zhang, Yi Jiang, Zehuan Yuan, Binyue Peng, Ping Luo
cs.AI

Resumo

Os modelos de difusão DiT alcançaram grande sucesso na geração de texto para vídeo, aproveitando sua escalabilidade na capacidade do modelo e escala de dados. Alta fidelidade de conteúdo e movimento alinhados com prompts de texto, no entanto, frequentemente exigem grandes parâmetros de modelo e um número substancial de avaliações de funções (NFEs). Detalhes realistas e visualmente atraentes são tipicamente refletidos em saídas de alta resolução, ampliando ainda mais as demandas computacionais, especialmente para modelos DiT de estágio único. Para enfrentar esses desafios, propomos um novo framework de dois estágios, FlashVideo, que aloca estrategicamente a capacidade do modelo e NFEs entre os estágios para equilibrar a fidelidade e qualidade da geração. No primeiro estágio, a fidelidade do prompt é priorizada por meio de um processo de geração de baixa resolução utilizando grandes parâmetros e NFEs suficientes para aprimorar a eficiência computacional. O segundo estágio estabelece a correspondência de fluxo entre baixa e alta resoluções, gerando efetivamente detalhes finos com um mínimo de NFEs. Resultados quantitativos e visuais demonstram que o FlashVideo alcança geração de vídeo de alta resolução de última geração com eficiência computacional superior. Além disso, o design de dois estágios permite aos usuários visualizar a saída inicial antes de se comprometer com a geração de resolução total, reduzindo significativamente os custos computacionais e os tempos de espera, além de aprimorar a viabilidade comercial.
English
DiT diffusion models have achieved great success in text-to-video generation, leveraging their scalability in model capacity and data scale. High content and motion fidelity aligned with text prompts, however, often require large model parameters and a substantial number of function evaluations (NFEs). Realistic and visually appealing details are typically reflected in high resolution outputs, further amplifying computational demands especially for single stage DiT models. To address these challenges, we propose a novel two stage framework, FlashVideo, which strategically allocates model capacity and NFEs across stages to balance generation fidelity and quality. In the first stage, prompt fidelity is prioritized through a low resolution generation process utilizing large parameters and sufficient NFEs to enhance computational efficiency. The second stage establishes flow matching between low and high resolutions, effectively generating fine details with minimal NFEs. Quantitative and visual results demonstrate that FlashVideo achieves state-of-the-art high resolution video generation with superior computational efficiency. Additionally, the two-stage design enables users to preview the initial output before committing to full resolution generation, thereby significantly reducing computational costs and wait times as well as enhancing commercial viability .

Summary

AI-Generated Summary

PDF243February 10, 2025