Stabile Geschwindigkeit: Eine Varianzperspektive auf Flow Matching
Stable Velocity: A Variance Perspective on Flow Matching
February 5, 2026
papers.authors: Donglin Yang, Yongxing Zhang, Xin Yu, Liang Hou, Xin Tao, Pengfei Wan, Xiaojuan Qi, Renjie Liao
cs.AI
papers.abstract
Obwohl Flow Matching elegant ist, führt seine Abhängigkeit von konditionalen Geschwindigkeiten einzelner Stichproben zu Trainingszielen mit hoher Varianz, was die Optimierung destabilisiert und die Konvergenz verlangsamt. Durch explizite Charakterisierung dieser Varianz identifizieren wir 1) ein Hochvarianz-Regime nahe der Prior-Verteilung, wo die Optimierung schwierig ist, und 2) ein Niedrigvarianz-Regime nahe der Datenverteilung, wo konditionale und marginale Geschwindigkeiten nahezu übereinstimmen. Aufbauend auf dieser Erkenntnis schlagen wir Stable Velocity vor, einen einheitlichen Rahmen, der sowohl Training als auch Sampling verbessert. Für das Training führen wir Stable Velocity Matching (StableVM) ein, ein unverzerrtes Ziel zur Varianzreduktion, sowie Variance-Aware Representation Alignment (VA-REPA), das adaptive Hilfsüberwachung im Niedrigvarianz-Regime verstärkt. Für die Inferenz zeigen wir, dass Dynamiken im Niedrigvarianz-Regime geschlossene Vereinfachungen zulassen, was Stable Velocity Sampling (StableVS) ermöglicht – eine beschleunigende Methode ohne Feinabstimmung. Umfangreiche Experimente auf ImageNet 256×256 sowie mit großen vortrainierten Text-zu-Bild- und Text-zu-Video-Modellen, darunter SD3.5, Flux, Qwen-Image und Wan2.2, demonstrieren konsistente Verbesserungen der Trainingseffizienz und mehr als 2× schnelleres Sampling im Niedrigvarianz-Regime ohne Qualitätseinbußen. Unser Code ist verfügbar unter https://github.com/linYDTHU/StableVelocity.
English
While flow matching is elegant, its reliance on single-sample conditional velocities leads to high-variance training targets that destabilize optimization and slow convergence. By explicitly characterizing this variance, we identify 1) a high-variance regime near the prior, where optimization is challenging, and 2) a low-variance regime near the data distribution, where conditional and marginal velocities nearly coincide. Leveraging this insight, we propose Stable Velocity, a unified framework that improves both training and sampling. For training, we introduce Stable Velocity Matching (StableVM), an unbiased variance-reduction objective, along with Variance-Aware Representation Alignment (VA-REPA), which adaptively strengthen auxiliary supervision in the low-variance regime. For inference, we show that dynamics in the low-variance regime admit closed-form simplifications, enabling Stable Velocity Sampling (StableVS), a finetuning-free acceleration. Extensive experiments on ImageNet 256times256 and large pretrained text-to-image and text-to-video models, including SD3.5, Flux, Qwen-Image, and Wan2.2, demonstrate consistent improvements in training efficiency and more than 2times faster sampling within the low-variance regime without degrading sample quality. Our code is available at https://github.com/linYDTHU/StableVelocity.