FlashVideo: Fidelidad fluida al detalle para la generación eficiente de videos de alta resolución
FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation
February 7, 2025
Autores: Shilong Zhang, Wenbo Li, Shoufa Chen, Chongjian Ge, Peize Sun, Yida Zhang, Yi Jiang, Zehuan Yuan, Binyue Peng, Ping Luo
cs.AI
Resumen
Los modelos de difusión DiT han logrado un gran éxito en la generación de texto a video, aprovechando su escalabilidad en capacidad del modelo y escala de datos. La alta fidelidad de contenido y movimiento alineada con las indicaciones de texto, sin embargo, a menudo requiere grandes parámetros de modelo y un número sustancial de evaluaciones de funciones (NFEs). Los detalles realistas y visualmente atractivos suelen reflejarse en salidas de alta resolución, lo que amplifica aún más las demandas computacionales, especialmente para modelos DiT de una sola etapa. Para abordar estos desafíos, proponemos un nuevo marco de dos etapas, FlashVideo, que asigna estratégicamente la capacidad del modelo y las NFEs a lo largo de las etapas para equilibrar la fidelidad y calidad de generación. En la primera etapa, se prioriza la fidelidad de la indicación a través de un proceso de generación de baja resolución utilizando grandes parámetros y suficientes NFEs para mejorar la eficiencia computacional. La segunda etapa establece la coincidencia de flujo entre bajas y altas resoluciones, generando efectivamente detalles finos con un mínimo de NFEs. Los resultados cuantitativos y visuales demuestran que FlashVideo logra una generación de video de alta resolución de vanguardia con una eficiencia computacional superior. Además, el diseño de dos etapas permite a los usuarios previsualizar la salida inicial antes de comprometerse con la generación de resolución completa, reduciendo significativamente los costos computacionales y los tiempos de espera, así como mejorando la viabilidad comercial.
English
DiT diffusion models have achieved great success in text-to-video generation,
leveraging their scalability in model capacity and data scale. High content and
motion fidelity aligned with text prompts, however, often require large model
parameters and a substantial number of function evaluations (NFEs). Realistic
and visually appealing details are typically reflected in high resolution
outputs, further amplifying computational demands especially for single stage
DiT models. To address these challenges, we propose a novel two stage
framework, FlashVideo, which strategically allocates model capacity and NFEs
across stages to balance generation fidelity and quality. In the first stage,
prompt fidelity is prioritized through a low resolution generation process
utilizing large parameters and sufficient NFEs to enhance computational
efficiency. The second stage establishes flow matching between low and high
resolutions, effectively generating fine details with minimal NFEs.
Quantitative and visual results demonstrate that FlashVideo achieves
state-of-the-art high resolution video generation with superior computational
efficiency. Additionally, the two-stage design enables users to preview the
initial output before committing to full resolution generation, thereby
significantly reducing computational costs and wait times as well as enhancing
commercial viability .Summary
AI-Generated Summary