Стабильная скорость: дисперсионный подход к согласованию потоков
Stable Velocity: A Variance Perspective on Flow Matching
February 5, 2026
Авторы: Donglin Yang, Yongxing Zhang, Xin Yu, Liang Hou, Xin Tao, Pengfei Wan, Xiaojuan Qi, Renjie Liao
cs.AI
Аннотация
Хотя метод согласования потоков является элегантным, его зависимость от условных скоростей, вычисляемых по одному образцу, приводит к целевым функциям обучения с высокой дисперсией, что дестабилизирует оптимизацию и замедляет сходимость. Путем явного анализа этой дисперсии мы выявляем: 1) режим высокой дисперсии вблизи априорного распределения, где оптимизация затруднена, и 2) режим низкой дисперсии вблизи распределения данных, где условные и маргинальные скорости практически совпадают. Используя это наблюдение, мы предлагаем Stable Velocity — унифицированную framework, которая улучшает как обучение, так и генерацию. Для обучения мы вводим Stable Velocity Matching (StableVM) — несмещенную целевую функцию с уменьшенной дисперсией, а также Variance-Aware Representation Alignment (VA-REPA), которая адативно усиливает вспомогательное обучение в режиме низкой дисперсии. Для вывода мы показываем, что динамика в режиме низкой дисперсии допускает аналитические упрощения, что позволяет реализовать Stable Velocity Sampling (StableVS) — ускорение генерации без дообучения. Экстенсивные эксперименты на ImageNet 256×256 и крупных предобученных моделях для генерации изображений и видео по тексту, включая SD3.5, Flux, Qwen-Image и Wan2.2, демонстрируют устойчивое улучшение эффективности обучения и более чем двукратное ускорение генерации в режиме низкой дисперсии без ухудшения качества образцов. Наш код доступен по адресу https://github.com/linYDTHU/StableVelocity.
English
While flow matching is elegant, its reliance on single-sample conditional velocities leads to high-variance training targets that destabilize optimization and slow convergence. By explicitly characterizing this variance, we identify 1) a high-variance regime near the prior, where optimization is challenging, and 2) a low-variance regime near the data distribution, where conditional and marginal velocities nearly coincide. Leveraging this insight, we propose Stable Velocity, a unified framework that improves both training and sampling. For training, we introduce Stable Velocity Matching (StableVM), an unbiased variance-reduction objective, along with Variance-Aware Representation Alignment (VA-REPA), which adaptively strengthen auxiliary supervision in the low-variance regime. For inference, we show that dynamics in the low-variance regime admit closed-form simplifications, enabling Stable Velocity Sampling (StableVS), a finetuning-free acceleration. Extensive experiments on ImageNet 256times256 and large pretrained text-to-image and text-to-video models, including SD3.5, Flux, Qwen-Image, and Wan2.2, demonstrate consistent improvements in training efficiency and more than 2times faster sampling within the low-variance regime without degrading sample quality. Our code is available at https://github.com/linYDTHU/StableVelocity.