FlowBlending: 빠르고 고화질 비디오 생성을 위한 단계 인식 다중 모델 샘플링
FlowBlending: Stage-Aware Multi-Model Sampling for Fast and High-Fidelity Video Generation
December 31, 2025
저자: Jibin Song, Mingi Kwon, Jaeseok Jeong, Youngjung Uh
cs.AI
초록
본 연구에서는 모델 용량의 영향이 시간 스텝에 따라 상이하게 나타남을 보인다: 초기 및 후기 단계에서는 결정적 중요성을 가지나 중간 단계에서는 대체로 무시할 수 있다. 이에 따라 우리는 용량 민감 단계와 중간 단계에서 각각 대형 모델과 소형 모델을 활용하는 단계 인식 다중 모델 샘플링 전략인 FlowBlending을 제안한다. 더 나아가 단계 경계를 선택하는 간단한 기준을 제시하고, 용량 민감 영역 식별을 위한 효과적 대리 지표로 속도-발산 분석을 제공한다. LTX-Video(2B/13B)와 WAN 2.1(1.3B/14B)에서 FlowBlending은 대형 모델의 시각적 정확도, 시간적 일관성, 의미론적 정합성을 유지하면서 최대 1.65배 빠른 추론 속도와 57.35% 감소한 FLOPs를 달성했다. FlowBlending은 기존 샘플링 가속 기술과도 호환되어 최대 2배의 추가 속도 향상을 가능하게 한다. 프로젝트 페이지는 https://jibin86.github.io/flowblending_project_page에서 확인할 수 있다.
English
In this work, we show that the impact of model capacity varies across timesteps: it is crucial for the early and late stages but largely negligible during the intermediate stage. Accordingly, we propose FlowBlending, a stage-aware multi-model sampling strategy that employs a large model and a small model at capacity-sensitive stages and intermediate stages, respectively. We further introduce simple criteria to choose stage boundaries and provide a velocity-divergence analysis as an effective proxy for identifying capacity-sensitive regions. Across LTX-Video (2B/13B) and WAN 2.1 (1.3B/14B), FlowBlending achieves up to 1.65x faster inference with 57.35% fewer FLOPs, while maintaining the visual fidelity, temporal coherence, and semantic alignment of the large models. FlowBlending is also compatible with existing sampling-acceleration techniques, enabling up to 2x additional speedup. Project page is available at: https://jibin86.github.io/flowblending_project_page.