Self-Forcing++: Rumo à Geração de Vídeos de Alta Qualidade em Escala de Minutos
Self-Forcing++: Towards Minute-Scale High-Quality Video Generation
October 2, 2025
Autores: Justin Cui, Jie Wu, Ming Li, Tao Yang, Xiaojie Li, Rui Wang, Andrew Bai, Yuanhao Ban, Cho-Jui Hsieh
cs.AI
Resumo
Os modelos de difusão revolucionaram a geração de imagens e vídeos, alcançando uma qualidade visual sem precedentes. No entanto, sua dependência de arquiteturas baseadas em transformers acarreta custos computacionais proibitivamente altos, especialmente ao estender a geração para vídeos longos. Trabalhos recentes exploraram formulações autorregressivas para a geração de vídeos longos, geralmente por meio da destilação de modelos professores bidirecionais de curto horizonte. No entanto, como os modelos professores não conseguem sintetizar vídeos longos, a extrapolação dos modelos alunos além de seu horizonte de treinamento frequentemente resulta em uma degradação acentuada da qualidade, decorrente da acumulação de erros no espaço latente contínuo. Neste artigo, propomos uma abordagem simples, porém eficaz, para mitigar a degradação de qualidade na geração de vídeos de longo horizonte, sem a necessidade de supervisão de modelos professores de vídeos longos ou retreinamento em conjuntos de dados de vídeos longos. Nossa abordagem se concentra em explorar o rico conhecimento dos modelos professores para fornecer orientação ao modelo aluno por meio de segmentos amostrados de vídeos longos autogerados. Nosso método mantém a consistência temporal ao escalar a duração do vídeo em até 20x além da capacidade do modelo professor, evitando problemas comuns, como superexposição e acumulação de erros, sem a necessidade de recalcular quadros sobrepostos, como em métodos anteriores. Ao escalar a computação, nosso método demonstra a capacidade de gerar vídeos de até 4 minutos e 15 segundos, equivalente a 99,9% do intervalo máximo suportado pelo embedding de posição do nosso modelo base e mais de 50x mais longo que o do nosso modelo de referência. Experimentos em benchmarks padrão e em nosso benchmark proposto demonstram que nossa abordagem supera substancialmente os métodos de referência em fidelidade e consistência. Nossa demonstração de vídeos de longo horizonte pode ser encontrada em https://self-forcing-plus-plus.github.io/.
English
Diffusion models have revolutionized image and video generation, achieving
unprecedented visual quality. However, their reliance on transformer
architectures incurs prohibitively high computational costs, particularly when
extending generation to long videos. Recent work has explored autoregressive
formulations for long video generation, typically by distilling from
short-horizon bidirectional teachers. Nevertheless, given that teacher models
cannot synthesize long videos, the extrapolation of student models beyond their
training horizon often leads to pronounced quality degradation, arising from
the compounding of errors within the continuous latent space. In this paper, we
propose a simple yet effective approach to mitigate quality degradation in
long-horizon video generation without requiring supervision from long-video
teachers or retraining on long video datasets. Our approach centers on
exploiting the rich knowledge of teacher models to provide guidance for the
student model through sampled segments drawn from self-generated long videos.
Our method maintains temporal consistency while scaling video length by up to
20x beyond teacher's capability, avoiding common issues such as over-exposure
and error-accumulation without recomputing overlapping frames like previous
methods. When scaling up the computation, our method shows the capability of
generating videos up to 4 minutes and 15 seconds, equivalent to 99.9% of the
maximum span supported by our base model's position embedding and more than 50x
longer than that of our baseline model. Experiments on standard benchmarks and
our proposed improved benchmark demonstrate that our approach substantially
outperforms baseline methods in both fidelity and consistency. Our long-horizon
videos demo can be found at https://self-forcing-plus-plus.github.io/