Vitesse stable : une perspective de variance sur l'appariement de flux
Stable Velocity: A Variance Perspective on Flow Matching
February 5, 2026
papers.authors: Donglin Yang, Yongxing Zhang, Xin Yu, Liang Hou, Xin Tao, Pengfei Wan, Xiaojuan Qi, Renjie Liao
cs.AI
papers.abstract
Bien que le *flow matching* soit élégant, sa dépendance aux vitesses conditionnelles à un seul échantillon conduit à des cibles d'entraînement à haute variance qui déstabilisent l'optimisation et ralentissent la convergence. En caractérisant explicitement cette variance, nous identifions 1) un régime de haute variance près de l'a priori, où l'optimisation est difficile, et 2) un régime de faible variance près de la distribution des données, où les vitesses conditionnelles et marginales coïncident presque. En tirant parti de cette observation, nous proposons Stable Velocity, un cadre unifié qui améliore à la fois l'entraînement et l'échantillonnage. Pour l'entraînement, nous introduisons Stable Velocity Matching (StableVM), un objectif non biaisé de réduction de variance, ainsi que Variance-Aware Representation Alignment (VA-REPA), qui renforce de manière adaptative la supervision auxiliaire dans le régime de faible variance. Pour l'inférence, nous montrons que les dynamiques dans le régime de faible variance admettent des simplifications sous forme fermée, permettant Stable Velocity Sampling (StableVS), une accélération sans *finetuning*. Des expériences approfondies sur ImageNet 256×256 et de grands modèles pré-entraînés texte-à-image et texte-à-vidéo, incluant SD3.5, Flux, Qwen-Image et Wan2.2, démontrent des améliorations constantes de l'efficacité de l'entraînement et un échantillonnage plus de 2 fois plus rapide dans le régime de faible variance sans dégradation de la qualité des échantillons. Notre code est disponible à l'adresse https://github.com/linYDTHU/StableVelocity.
English
While flow matching is elegant, its reliance on single-sample conditional velocities leads to high-variance training targets that destabilize optimization and slow convergence. By explicitly characterizing this variance, we identify 1) a high-variance regime near the prior, where optimization is challenging, and 2) a low-variance regime near the data distribution, where conditional and marginal velocities nearly coincide. Leveraging this insight, we propose Stable Velocity, a unified framework that improves both training and sampling. For training, we introduce Stable Velocity Matching (StableVM), an unbiased variance-reduction objective, along with Variance-Aware Representation Alignment (VA-REPA), which adaptively strengthen auxiliary supervision in the low-variance regime. For inference, we show that dynamics in the low-variance regime admit closed-form simplifications, enabling Stable Velocity Sampling (StableVS), a finetuning-free acceleration. Extensive experiments on ImageNet 256times256 and large pretrained text-to-image and text-to-video models, including SD3.5, Flux, Qwen-Image, and Wan2.2, demonstrate consistent improvements in training efficiency and more than 2times faster sampling within the low-variance regime without degrading sample quality. Our code is available at https://github.com/linYDTHU/StableVelocity.