Velocidade Estável: Uma Perspectiva de Variância no Flow Matching

Resumo

Embora o *flow matching* seja elegante, sua dependência de velocidades condicionais de amostra única leva a objetivos de treinamento de alta variância que desestabilizam a otimização e retardam a convergência. Ao caracterizar explicitamente essa variância, identificamos 1) um regime de alta variância próximo ao prior, onde a otimização é desafiadora, e 2) um regime de baixa variância próximo à distribuição de dados, onde as velocidades condicionais e marginais quase coincidem. Aproveitando essa percepção, propomos Stable Velocity, uma estrutura unificada que melhora tanto o treinamento quanto a amostragem. Para o treinamento, introduzimos Stable Velocity Matching (StableVM), um objetivo imparcial de redução de variância, juntamente com o Variance-Aware Representation Alignment (VA-REPA), que fortalece adaptativamente a supervisão auxiliar no regime de baixa variância. Para inferência, mostramos que as dinâmicas no regime de baixa variância admitem simplificações de forma fechada, permitindo a Stable Velocity Sampling (StableVS), uma aceleração sem *finetuning*. Experimentos extensos no ImageNet 256×256 e em grandes modelos pré-treinados de texto para imagem e texto para vídeo, incluindo SD3.5, Flux, Qwen-Image e Wan2.2, demonstram melhorias consistentes na eficiência do treinamento e amostragem mais de 2 vezes mais rápida dentro do regime de baixa variância, sem degradar a qualidade da amostra. Nosso código está disponível em https://github.com/linYDTHU/StableVelocity.

English

While flow matching is elegant, its reliance on single-sample conditional velocities leads to high-variance training targets that destabilize optimization and slow convergence. By explicitly characterizing this variance, we identify 1) a high-variance regime near the prior, where optimization is challenging, and 2) a low-variance regime near the data distribution, where conditional and marginal velocities nearly coincide. Leveraging this insight, we propose Stable Velocity, a unified framework that improves both training and sampling. For training, we introduce Stable Velocity Matching (StableVM), an unbiased variance-reduction objective, along with Variance-Aware Representation Alignment (VA-REPA), which adaptively strengthen auxiliary supervision in the low-variance regime. For inference, we show that dynamics in the low-variance regime admit closed-form simplifications, enabling Stable Velocity Sampling (StableVS), a finetuning-free acceleration. Extensive experiments on ImageNet 256times256 and large pretrained text-to-image and text-to-video models, including SD3.5, Flux, Qwen-Image, and Wan2.2, demonstrate consistent improvements in training efficiency and more than 2times faster sampling within the low-variance regime without degrading sample quality. Our code is available at https://github.com/linYDTHU/StableVelocity.

Velocidade Estável: Uma Perspectiva de Variância no Flow Matching

Stable Velocity: A Variance Perspective on Flow Matching

Resumo

Support