Self-Forcing++: Rumo à Geração de Vídeos de Alta Qualidade em Escala de Minutos

Resumo

Os modelos de difusão revolucionaram a geração de imagens e vídeos, alcançando uma qualidade visual sem precedentes. No entanto, sua dependência de arquiteturas baseadas em transformers acarreta custos computacionais proibitivamente altos, especialmente ao estender a geração para vídeos longos. Trabalhos recentes exploraram formulações autorregressivas para a geração de vídeos longos, geralmente por meio da destilação de modelos professores bidirecionais de curto horizonte. No entanto, como os modelos professores não conseguem sintetizar vídeos longos, a extrapolação dos modelos alunos além de seu horizonte de treinamento frequentemente resulta em uma degradação acentuada da qualidade, decorrente da acumulação de erros no espaço latente contínuo. Neste artigo, propomos uma abordagem simples, porém eficaz, para mitigar a degradação de qualidade na geração de vídeos de longo horizonte, sem a necessidade de supervisão de modelos professores de vídeos longos ou retreinamento em conjuntos de dados de vídeos longos. Nossa abordagem se concentra em explorar o rico conhecimento dos modelos professores para fornecer orientação ao modelo aluno por meio de segmentos amostrados de vídeos longos autogerados. Nosso método mantém a consistência temporal ao escalar a duração do vídeo em até 20x além da capacidade do modelo professor, evitando problemas comuns, como superexposição e acumulação de erros, sem a necessidade de recalcular quadros sobrepostos, como em métodos anteriores. Ao escalar a computação, nosso método demonstra a capacidade de gerar vídeos de até 4 minutos e 15 segundos, equivalente a 99,9% do intervalo máximo suportado pelo embedding de posição do nosso modelo base e mais de 50x mais longo que o do nosso modelo de referência. Experimentos em benchmarks padrão e em nosso benchmark proposto demonstram que nossa abordagem supera substancialmente os métodos de referência em fidelidade e consistência. Nossa demonstração de vídeos de longo horizonte pode ser encontrada em https://self-forcing-plus-plus.github.io/.

English

Diffusion models have revolutionized image and video generation, achieving unprecedented visual quality. However, their reliance on transformer architectures incurs prohibitively high computational costs, particularly when extending generation to long videos. Recent work has explored autoregressive formulations for long video generation, typically by distilling from short-horizon bidirectional teachers. Nevertheless, given that teacher models cannot synthesize long videos, the extrapolation of student models beyond their training horizon often leads to pronounced quality degradation, arising from the compounding of errors within the continuous latent space. In this paper, we propose a simple yet effective approach to mitigate quality degradation in long-horizon video generation without requiring supervision from long-video teachers or retraining on long video datasets. Our approach centers on exploiting the rich knowledge of teacher models to provide guidance for the student model through sampled segments drawn from self-generated long videos. Our method maintains temporal consistency while scaling video length by up to 20x beyond teacher's capability, avoiding common issues such as over-exposure and error-accumulation without recomputing overlapping frames like previous methods. When scaling up the computation, our method shows the capability of generating videos up to 4 minutes and 15 seconds, equivalent to 99.9% of the maximum span supported by our base model's position embedding and more than 50x longer than that of our baseline model. Experiments on standard benchmarks and our proposed improved benchmark demonstrate that our approach substantially outperforms baseline methods in both fidelity and consistency. Our long-horizon videos demo can be found at https://self-forcing-plus-plus.github.io/

Self-Forcing++: Rumo à Geração de Vídeos de Alta Qualidade em Escala de Minutos

Self-Forcing++: Towards Minute-Scale High-Quality Video Generation

Resumo

Support