ChatPaper.aiChatPaper

ビデオの強化:無料でより良い生成されたビデオ

Enhance-A-Video: Better Generated Video for Free

February 11, 2025
著者: Yang Luo, Xuanlei Zhao, Mengzhao Chen, Kaipeng Zhang, Wenqi Shao, Kai Wang, Zhangyang Wang, Yang You
cs.AI

要旨

DiTベースのビデオ生成は素晴らしい結果を達成していますが、既存のモデルの向上に関する研究は比較的未開拓のままです。本研究では、訓練不要のアプローチを導入し、DiTベースの生成されたビデオの一貫性と品質を向上させるEnhance-A-Videoを紹介します。中心となるアイデアは、非対角の時間的注意分布に基づいてクロスフレームの相関を向上させることです。シンプルな設計のおかげで、我々のアプローチは再訓練や微調整を必要とせず、ほとんどすべてのDiTベースのビデオ生成フレームワークに簡単に適用できます。さまざまなDiTベースのビデオ生成モデルにおいて、我々のアプローチは時間的一貫性と視覚的品質の両方で有望な改善を示しています。この研究がビデオ生成の向上における将来の探求を刺激することを願っています。
English
DiT-based video generation has achieved remarkable results, but research into enhancing existing models remains relatively unexplored. In this work, we introduce a training-free approach to enhance the coherence and quality of DiT-based generated videos, named Enhance-A-Video. The core idea is enhancing the cross-frame correlations based on non-diagonal temporal attention distributions. Thanks to its simple design, our approach can be easily applied to most DiT-based video generation frameworks without any retraining or fine-tuning. Across various DiT-based video generation models, our approach demonstrates promising improvements in both temporal consistency and visual quality. We hope this research can inspire future explorations in video generation enhancement.

Summary

AI-Generated Summary

PDF212February 12, 2025