FlashVideo: Fidelidad fluida al detalle para la generación eficiente de videos de alta resolución

Resumen

Los modelos de difusión DiT han logrado un gran éxito en la generación de texto a video, aprovechando su escalabilidad en capacidad del modelo y escala de datos. La alta fidelidad de contenido y movimiento alineada con las indicaciones de texto, sin embargo, a menudo requiere grandes parámetros de modelo y un número sustancial de evaluaciones de funciones (NFEs). Los detalles realistas y visualmente atractivos suelen reflejarse en salidas de alta resolución, lo que amplifica aún más las demandas computacionales, especialmente para modelos DiT de una sola etapa. Para abordar estos desafíos, proponemos un nuevo marco de dos etapas, FlashVideo, que asigna estratégicamente la capacidad del modelo y las NFEs a lo largo de las etapas para equilibrar la fidelidad y calidad de generación. En la primera etapa, se prioriza la fidelidad de la indicación a través de un proceso de generación de baja resolución utilizando grandes parámetros y suficientes NFEs para mejorar la eficiencia computacional. La segunda etapa establece la coincidencia de flujo entre bajas y altas resoluciones, generando efectivamente detalles finos con un mínimo de NFEs. Los resultados cuantitativos y visuales demuestran que FlashVideo logra una generación de video de alta resolución de vanguardia con una eficiencia computacional superior. Además, el diseño de dos etapas permite a los usuarios previsualizar la salida inicial antes de comprometerse con la generación de resolución completa, reduciendo significativamente los costos computacionales y los tiempos de espera, así como mejorando la viabilidad comercial.

English

DiT diffusion models have achieved great success in text-to-video generation, leveraging their scalability in model capacity and data scale. High content and motion fidelity aligned with text prompts, however, often require large model parameters and a substantial number of function evaluations (NFEs). Realistic and visually appealing details are typically reflected in high resolution outputs, further amplifying computational demands especially for single stage DiT models. To address these challenges, we propose a novel two stage framework, FlashVideo, which strategically allocates model capacity and NFEs across stages to balance generation fidelity and quality. In the first stage, prompt fidelity is prioritized through a low resolution generation process utilizing large parameters and sufficient NFEs to enhance computational efficiency. The second stage establishes flow matching between low and high resolutions, effectively generating fine details with minimal NFEs. Quantitative and visual results demonstrate that FlashVideo achieves state-of-the-art high resolution video generation with superior computational efficiency. Additionally, the two-stage design enables users to preview the initial output before committing to full resolution generation, thereby significantly reducing computational costs and wait times as well as enhancing commercial viability .