Difusão em Grande Escala via Distilação de Pontuação Regularizada em Consistência de Tempo Contínuo

Resumo

Este trabalho representa o primeiro esforço para escalar a destilação de consistência em tempo contínuo para modelos de difusão de imagem e vídeo em nível de aplicação geral. Embora o modelo de consistência em tempo contínuo (sCM) seja teoricamente fundamentado e empiricamente poderoso para acelerar a difusão em escala acadêmica, sua aplicabilidade em tarefas de grande escala, como geração de texto para imagem e vídeo, permanece incerta devido a desafios de infraestrutura no cálculo de produtos Jacobiano-vetor (JVP) e às limitações dos benchmarks de avaliação padrão. Primeiro, desenvolvemos um kernel JVP compatível com paralelismo baseado no FlashAttention-2, permitindo o treinamento de sCM em modelos com mais de 10 bilhões de parâmetros e tarefas de vídeo de alta dimensionalidade. Nossa investigação revela limitações fundamentais de qualidade do sCM na geração de detalhes finos, que atribuímos ao acúmulo de erros e à natureza "mode-covering" de seu objetivo de divergência direta. Para remediar isso, propomos o modelo de consistência em tempo contínuo regularizado por pontuação (rCM), que incorpora a destilação de pontuação como um regularizador de salto longo. Essa integração complementa o sCM com a divergência reversa "mode-seeking", melhorando efetivamente a qualidade visual enquanto mantém alta diversidade na geração. Validado em modelos de grande escala (Cosmos-Predict2, Wan2.1) com até 14 bilhões de parâmetros e vídeos de 5 segundos, o rCM iguala ou supera o método de destilação state-of-the-art DMD2 em métricas de qualidade, oferecendo vantagens notáveis em diversidade, tudo sem ajustes de GAN ou extensas buscas de hiperparâmetros. Os modelos destilados geram amostras de alta fidelidade em apenas 1 a 4 passos, acelerando a amostragem de difusão em 15 a 50 vezes. Esses resultados posicionam o rCM como uma estrutura prática e teoricamente fundamentada para avançar a destilação de difusão em grande escala.

English

This work represents the first effort to scale up continuous-time consistency distillation to general application-level image and video diffusion models. Although continuous-time consistency model (sCM) is theoretically principled and empirically powerful for accelerating academic-scale diffusion, its applicability to large-scale text-to-image and video tasks remains unclear due to infrastructure challenges in Jacobian-vector product (JVP) computation and the limitations of standard evaluation benchmarks. We first develop a parallelism-compatible FlashAttention-2 JVP kernel, enabling sCM training on models with over 10 billion parameters and high-dimensional video tasks. Our investigation reveals fundamental quality limitations of sCM in fine-detail generation, which we attribute to error accumulation and the "mode-covering" nature of its forward-divergence objective. To remedy this, we propose the score-regularized continuous-time consistency model (rCM), which incorporates score distillation as a long-skip regularizer. This integration complements sCM with the "mode-seeking" reverse divergence, effectively improving visual quality while maintaining high generation diversity. Validated on large-scale models (Cosmos-Predict2, Wan2.1) up to 14B parameters and 5-second videos, rCM matches or surpasses the state-of-the-art distillation method DMD2 on quality metrics while offering notable advantages in diversity, all without GAN tuning or extensive hyperparameter searches. The distilled models generate high-fidelity samples in only 1sim4 steps, accelerating diffusion sampling by 15timessim50times. These results position rCM as a practical and theoretically grounded framework for advancing large-scale diffusion distillation.

Difusão em Grande Escala via Distilação de Pontuação Regularizada em Consistência de Tempo Contínuo

Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency

Resumo

Support