안정적 속도: 흐름 정합에 대한 분산 관점
Stable Velocity: A Variance Perspective on Flow Matching
February 5, 2026
저자: Donglin Yang, Yongxing Zhang, Xin Yu, Liang Hou, Xin Tao, Pengfei Wan, Xiaojuan Qi, Renjie Liao
cs.AI
초록
플로우 매칭은 우아한 방법이지만, 단일 샘플 조건부 속도에 의존하기 때문에 높은 분산을 보이는 훈련 목표를 초래하여 최적화를 불안정하게 만들고 수렴 속도를 저하시킵니다. 본 연구에서는 이러한 분산을 명시적으로 분석함으로써 1) 사전 분포 근처에서 최적화가 어려운 고분산 영역과 2) 데이터 분포 근처에서 조건부 속도와 주변 속도가 거의 일치하는 저분산 영역을 규명합니다. 이러한 통찰을 바탕으로 훈련과 샘플링 모두를 개선하는 통합 프레임워크인 Stable Velocity를 제안합니다. 훈련을 위해 편향이 없는 분산 감소 목표인 Stable Velocity Matching(StableVM)과 저분산 영역에서 적응적으로 보조 감독을 강화하는 Variance-Aware Representation Alignment(VA-REPA)를 도입합니다. 추론을 위해 저분산 영역의 동역학이 폐형식 단순화를 허용함을 보여주며, 파인튜닝 없이도 가속화가 가능한 Stable Velocity Sampling(StableVS)을 가능하게 합니다. ImageNet 256×256 및 SD3.5, Flux, Qwen-Image, Wan2.2를 포함한 대규모 사전 훈련된 텍스트-이미지 및 텍스트-비디오 모델에 대한 광범위한 실험을 통해 훈련 효율성의 지속적인 개선과 샘플 품질 저하 없이 저분산 영역 내에서 2배 이상 빠른 샘플링 성능을 입증합니다. 코드는 https://github.com/linYDTHU/StableVelocity에서 확인할 수 있습니다.
English
While flow matching is elegant, its reliance on single-sample conditional velocities leads to high-variance training targets that destabilize optimization and slow convergence. By explicitly characterizing this variance, we identify 1) a high-variance regime near the prior, where optimization is challenging, and 2) a low-variance regime near the data distribution, where conditional and marginal velocities nearly coincide. Leveraging this insight, we propose Stable Velocity, a unified framework that improves both training and sampling. For training, we introduce Stable Velocity Matching (StableVM), an unbiased variance-reduction objective, along with Variance-Aware Representation Alignment (VA-REPA), which adaptively strengthen auxiliary supervision in the low-variance regime. For inference, we show that dynamics in the low-variance regime admit closed-form simplifications, enabling Stable Velocity Sampling (StableVS), a finetuning-free acceleration. Extensive experiments on ImageNet 256times256 and large pretrained text-to-image and text-to-video models, including SD3.5, Flux, Qwen-Image, and Wan2.2, demonstrate consistent improvements in training efficiency and more than 2times faster sampling within the low-variance regime without degrading sample quality. Our code is available at https://github.com/linYDTHU/StableVelocity.