FlashVideo: Поддержание точности деталей для эффективной генерации видео высокого разрешения
FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation
February 7, 2025
Авторы: Shilong Zhang, Wenbo Li, Shoufa Chen, Chongjian Ge, Peize Sun, Yida Zhang, Yi Jiang, Zehuan Yuan, Binyue Peng, Ping Luo
cs.AI
Аннотация
Модели распространения DiT достигли большого успеха в генерации текста в видео, используя их масштабируемость в объеме модели и масштабе данных. Высокая точность контента и движения, соответствующая текстовым подсказкам, однако часто требует большого количества параметров модели и значительного числа оценок функций (NFE). Реалистичные и визуально привлекательные детали обычно отражаются в высокоразрешенных выходах, что дополнительно увеличивает вычислительные требования, особенно для одноступенчатых моделей DiT. Для решения этих проблем мы предлагаем новую двухступенчатую структуру, FlashVideo, которая стратегически распределяет объем модели и NFE между этапами для балансировки точности и качества генерации. На первом этапе точность подсказки приоритизируется через процесс генерации низкого разрешения с использованием больших параметров и достаточного количества NFE для улучшения вычислительной эффективности. Второй этап устанавливает соответствие потока между низким и высоким разрешениями, эффективно генерируя мелкие детали с минимальным количеством NFE. Количественные и визуальные результаты показывают, что FlashVideo достигает передовой генерации видео высокого разрешения с превосходной вычислительной эффективностью. Кроме того, двухступенчатая концепция позволяет пользователям предварительно просматривать начальный результат перед переходом к генерации полного разрешения, тем самым значительно снижая вычислительные затраты и время ожидания, а также улучшая коммерческую целесообразность.
English
DiT diffusion models have achieved great success in text-to-video generation,
leveraging their scalability in model capacity and data scale. High content and
motion fidelity aligned with text prompts, however, often require large model
parameters and a substantial number of function evaluations (NFEs). Realistic
and visually appealing details are typically reflected in high resolution
outputs, further amplifying computational demands especially for single stage
DiT models. To address these challenges, we propose a novel two stage
framework, FlashVideo, which strategically allocates model capacity and NFEs
across stages to balance generation fidelity and quality. In the first stage,
prompt fidelity is prioritized through a low resolution generation process
utilizing large parameters and sufficient NFEs to enhance computational
efficiency. The second stage establishes flow matching between low and high
resolutions, effectively generating fine details with minimal NFEs.
Quantitative and visual results demonstrate that FlashVideo achieves
state-of-the-art high resolution video generation with superior computational
efficiency. Additionally, the two-stage design enables users to preview the
initial output before committing to full resolution generation, thereby
significantly reducing computational costs and wait times as well as enhancing
commercial viability .Summary
AI-Generated Summary