Melhore um Vídeo: Vídeo Gerado de Melhor Qualidade Gratuitamente

Resumo

A geração de vídeos baseada em DiT tem alcançado resultados notáveis, mas a pesquisa para aprimorar os modelos existentes ainda é relativamente inexplorada. Neste trabalho, apresentamos uma abordagem sem treinamento para aprimorar a coerência e qualidade de vídeos gerados com base em DiT, chamada de Aprimorar-Um-Vídeo. A ideia central é aprimorar as correlações entre quadros com base em distribuições de atenção temporal não diagonais. Graças ao seu design simples, nossa abordagem pode ser facilmente aplicada à maioria dos frameworks de geração de vídeos baseados em DiT sem a necessidade de retrabalho ou ajustes finos. Em diversos modelos de geração de vídeos baseados em DiT, nossa abordagem demonstra melhorias promissoras tanto na consistência temporal quanto na qualidade visual. Esperamos que esta pesquisa possa inspirar futuras explorações no aprimoramento da geração de vídeos.

English

DiT-based video generation has achieved remarkable results, but research into enhancing existing models remains relatively unexplored. In this work, we introduce a training-free approach to enhance the coherence and quality of DiT-based generated videos, named Enhance-A-Video. The core idea is enhancing the cross-frame correlations based on non-diagonal temporal attention distributions. Thanks to its simple design, our approach can be easily applied to most DiT-based video generation frameworks without any retraining or fine-tuning. Across various DiT-based video generation models, our approach demonstrates promising improvements in both temporal consistency and visual quality. We hope this research can inspire future explorations in video generation enhancement.

Melhore um Vídeo: Vídeo Gerado de Melhor Qualidade Gratuitamente

Enhance-A-Video: Better Generated Video for Free

Resumo

Support