Verbessern Sie ein Video: Besseres generiertes Video kostenlos.

Zusammenfassung

Die auf DiT basierende Videogenerierung hat bemerkenswerte Ergebnisse erzielt, aber die Forschung zur Verbesserung bestehender Modelle ist noch relativ unerforscht. In dieser Arbeit stellen wir einen trainingsfreien Ansatz zur Verbesserung der Kohärenz und Qualität von auf DiT basierenden generierten Videos vor, der Enhance-A-Video genannt wird. Die Kernidee besteht darin, die Querframe-Korrelationen auf der Grundlage nicht-diagonaler zeitlicher Aufmerksamkeitsverteilungen zu verbessern. Dank seines einfachen Designs kann unser Ansatz leicht auf die meisten auf DiT basierenden Videogenerierungs-Frameworks angewendet werden, ohne dass eine erneute Schulung oder Feinabstimmung erforderlich ist. Über verschiedene auf DiT basierende Videogenerierungsmodelle hinweg zeigt unser Ansatz vielversprechende Verbesserungen sowohl in der zeitlichen Konsistenz als auch in der visuellen Qualität. Wir hoffen, dass diese Forschung zukünftige Erkundungen zur Verbesserung der Videogenerierung inspirieren kann.

English

DiT-based video generation has achieved remarkable results, but research into enhancing existing models remains relatively unexplored. In this work, we introduce a training-free approach to enhance the coherence and quality of DiT-based generated videos, named Enhance-A-Video. The core idea is enhancing the cross-frame correlations based on non-diagonal temporal attention distributions. Thanks to its simple design, our approach can be easily applied to most DiT-based video generation frameworks without any retraining or fine-tuning. Across various DiT-based video generation models, our approach demonstrates promising improvements in both temporal consistency and visual quality. We hope this research can inspire future explorations in video generation enhancement.