ChatPaper.aiChatPaper

FlowBlending: Стадийно-ориентированное мультимодельное сэмплирование для быстрой генерации видео с высоким качеством

FlowBlending: Stage-Aware Multi-Model Sampling for Fast and High-Fidelity Video Generation

December 31, 2025
Авторы: Jibin Song, Mingi Kwon, Jaeseok Jeong, Youngjung Uh
cs.AI

Аннотация

В данной работе мы показываем, что влияние емкости модели варьируется на разных временных шагах: оно критически важно на начальных и конечных стадиях, но в значительной степени пренебрежимо на промежуточной стадии. Соответственно, мы предлагаем FlowBlending, стратегию много-модельного сэмплирования, учитывающую стадию процесса, которая использует большую модель на стадиях, чувствительных к емкости, и малую модель — на промежуточных стадиях. Мы также вводим простые критерии для выбора границ стадий и предлагаем анализ дивергенции скорости в качестве эффективного косвенного метода для идентификации областей, чувствительных к емкости модели. На примерах моделей LTX-Video (2B/13B) и WAN 2.1 (1.3B/14B) FlowBlending позволяет достичь до 1.65-кратного ускорения вывода с уменьшением количества FLOPs на 57.35%, при этом сохраняя визуальное качество, временную согласованность и семантическую точность больших моделей. FlowBlending также совместим с существующими техниками ускорения сэмплирования, позволяя достичь дополнительного ускорения до 2 раз. Страница проекта доступна по адресу: https://jibin86.github.io/flowblending_project_page.
English
In this work, we show that the impact of model capacity varies across timesteps: it is crucial for the early and late stages but largely negligible during the intermediate stage. Accordingly, we propose FlowBlending, a stage-aware multi-model sampling strategy that employs a large model and a small model at capacity-sensitive stages and intermediate stages, respectively. We further introduce simple criteria to choose stage boundaries and provide a velocity-divergence analysis as an effective proxy for identifying capacity-sensitive regions. Across LTX-Video (2B/13B) and WAN 2.1 (1.3B/14B), FlowBlending achieves up to 1.65x faster inference with 57.35% fewer FLOPs, while maintaining the visual fidelity, temporal coherence, and semantic alignment of the large models. FlowBlending is also compatible with existing sampling-acceleration techniques, enabling up to 2x additional speedup. Project page is available at: https://jibin86.github.io/flowblending_project_page.
PDF22January 3, 2026