Velocità Stabile: Una Prospettiva sulla Varianza nel Flow Matching

Abstract

Sebbene il flow matching sia elegante, la sua dipendenza da velocità condizionali a singolo campione porta a target di addestramento ad alta varianza che destabilizzano l'ottimizzazione e rallentano la convergenza. Caratterizzando esplicitamente questa varianza, identifichiamo 1) un regime ad alta varianza in prossimità della distribuzione prior, dove l'ottimizzazione è difficile, e 2) un regime a bassa varianza in prossimità della distribuzione dei dati, dove le velocità condizionali e marginali quasi coincidono. Sfruttando questa intuizione, proponiamo Stable Velocity, un framework unificato che migliora sia l'addestramento che il campionamento. Per l'addestramento, introduciamo Stable Velocity Matching (StableVM), un obiettivo imparziale di riduzione della varianza, insieme a Variance-Aware Representation Alignment (VA-REPA), che rafforza in modo adattivo la supervisione ausiliaria nel regime a bassa varianza. Per l'inferenza, mostriamo che le dinamiche nel regime a bassa varianza ammettono semplificazioni in forma chiusa, abilitando Stable Velocity Sampling (StableVS), un'accelerazione senza fine-tuning. Esperimenti estensivi su ImageNet 256×256 e su grandi modelli preaddestrati text-to-image e text-to-video, inclusi SD3.5, Flux, Qwen-Image e Wan2.2, dimostrano miglioramenti consistenti nell'efficienza di addestramento e un campionamento più di 2 volte più veloce all'interno del regime a bassa varianza senza degradare la qualità del campione. Il nostro codice è disponibile all'indirizzo https://github.com/linYDTHU/StableVelocity.

English

While flow matching is elegant, its reliance on single-sample conditional velocities leads to high-variance training targets that destabilize optimization and slow convergence. By explicitly characterizing this variance, we identify 1) a high-variance regime near the prior, where optimization is challenging, and 2) a low-variance regime near the data distribution, where conditional and marginal velocities nearly coincide. Leveraging this insight, we propose Stable Velocity, a unified framework that improves both training and sampling. For training, we introduce Stable Velocity Matching (StableVM), an unbiased variance-reduction objective, along with Variance-Aware Representation Alignment (VA-REPA), which adaptively strengthen auxiliary supervision in the low-variance regime. For inference, we show that dynamics in the low-variance regime admit closed-form simplifications, enabling Stable Velocity Sampling (StableVS), a finetuning-free acceleration. Extensive experiments on ImageNet 256times256 and large pretrained text-to-image and text-to-video models, including SD3.5, Flux, Qwen-Image, and Wan2.2, demonstrate consistent improvements in training efficiency and more than 2times faster sampling within the low-variance regime without degrading sample quality. Our code is available at https://github.com/linYDTHU/StableVelocity.

Velocità Stabile: Una Prospettiva sulla Varianza nel Flow Matching

Stable Velocity: A Variance Perspective on Flow Matching

Abstract

Support