AnyFlow: Modelo de Difusão de Vídeo de Etapa Variável com Destilação de Mapa de Fluxo On-Policy

Resumo

A geração de vídeo em poucas etapas foi significativamente avançada pela destilação de consistência. No entanto, o desempenho de modelos destilados por consistência frequentemente se degrada à medida que mais etapas de amostragem são alocadas durante o teste, limitando sua eficácia para difusão de vídeo de qualquer etapa. Essa limitação surge porque a destilação de consistência substitui a trajetória ODE de fluxo de probabilidade original por uma trajetória de amostragem por consistência, enfraquecendo o desejável comportamento de escalonamento da amostragem ODE durante o teste. Para contornar essa limitação, apresentamos o AnyFlow, o primeiro framework de destilação de difusão de vídeo de qualquer etapa baseado em mapas de fluxo. Em vez de destilar um modelo para apenas algumas etapas fixas de amostragem, o AnyFlow otimiza toda a trajetória de amostragem ODE. Para isso, deslocamos o alvo da destilação do mapeamento de consistência de ponto final (z_{t} → z_{0}) para o aprendizado da transição do mapa de fluxo (z_{t} → z_{r}) em intervalos de tempo arbitrários. Propomos ainda a Simulação Reversa do Mapa de Fluxo, que decompõe uma propagação completa de Euler em transições curtas de mapa de fluxo, permitindo uma destilação on-policy eficiente que reduz erros durante o teste (ou seja, erro de discretização na amostragem em poucas etapas e viés de exposição na geração causal). Experimentos extensivos em arquiteturas bidirecionais e causais, com escalas variando de 1,3B a 14B parâmetros, demonstram que o AnyFlow alcança desempenho igual ou superior aos equivalentes baseados em consistência no regime de poucas etapas, enquanto escala com o orçamento de etapas de amostragem.

English

Few-step video generation has been significantly advanced by consistency distillation. However, the performance of consistency-distilled models often degrades as more sampling steps are allocated at test time, limiting their effectiveness for any-step video diffusion. This limitation arises because consistency distillation replaces the original probability-flow ODE trajectory with a consistency-sampling trajectory, weakening the desirable test-time scaling behavior of ODE sampling. To address this limitation, we introduce AnyFlow, the first any-step video diffusion distillation framework based on flow maps. Instead of distilling a model for only a few fixed sampling steps, AnyFlow optimizes the full ODE sampling trajectory. To this end, we shift the distillation target from endpoint consistency mapping (z_{t}rightarrow z_{0}) to flow-map transition learning (z_{t}rightarrow z_{r}) over arbitrary time intervals. We further propose Flow Map Backward Simulation, which decomposes a full Euler rollout into shortcut flow-map transitions, enabling efficient on-policy distillation that reduces test-time errors (i.e., discretization error in few-step sampling and exposure bias in causal generation). Extensive experiments across both bidirectional and causal architectures, at scales ranging from 1.3B to 14B parameters, demonstrate that AnyFlow achieves performance matches or surpasses consistency-based counterparts in the few-step regime, while scaling with sampling step budgets.