ChatPaper.aiChatPaper

FRESCO: ゼロショット動画翻訳のための時空間対応

FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation

March 19, 2024
著者: Shuai Yang, Yifan Zhou, Ziwei Liu, Chen Change Loy
cs.AI

要旨

テキストから画像への拡散モデルの顕著な有効性は、そのビデオ領域への応用可能性の広範な探求を促してきた。ゼロショット手法は、モデルの再学習を必要とせずに画像拡散モデルをビデオに拡張することを目指している。最近の手法は主に、フレーム間の対応関係を注意機構に組み込むことに焦点を当てている。しかし、有効な特徴に注意を向けるべき場所を決定する際のソフトな制約は、時として不十分であり、時間的な不整合を引き起こすことがある。本論文では、FRESCOを導入し、フレーム内の対応関係をフレーム間の対応関係とともに活用することで、より堅牢な時空間的制約を確立する。この強化により、フレーム間で意味的に類似したコンテンツの一貫した変換が保証される。単なる注意のガイダンスを超えて、我々のアプローチは、入力ビデオとの高い時空間的一貫性を達成するための特徴の明示的な更新を含み、結果として得られる翻訳ビデオの視覚的整合性を大幅に向上させる。広範な実験により、提案されたフレームワークが高品質で一貫性のあるビデオを生成する有効性が実証され、既存のゼロショット手法を上回る顕著な改善が示された。
English
The remarkable efficacy of text-to-image diffusion models has motivated extensive exploration of their potential application in video domains. Zero-shot methods seek to extend image diffusion models to videos without necessitating model training. Recent methods mainly focus on incorporating inter-frame correspondence into attention mechanisms. However, the soft constraint imposed on determining where to attend to valid features can sometimes be insufficient, resulting in temporal inconsistency. In this paper, we introduce FRESCO, intra-frame correspondence alongside inter-frame correspondence to establish a more robust spatial-temporal constraint. This enhancement ensures a more consistent transformation of semantically similar content across frames. Beyond mere attention guidance, our approach involves an explicit update of features to achieve high spatial-temporal consistency with the input video, significantly improving the visual coherence of the resulting translated videos. Extensive experiments demonstrate the effectiveness of our proposed framework in producing high-quality, coherent videos, marking a notable improvement over existing zero-shot methods.

Summary

AI-Generated Summary

PDF81December 15, 2024