ChatPaper.aiChatPaper

スタイルマスター:芸術的生成と翻訳でビデオをスタイリッシュに装飾

StyleMaster: Stylize Your Video with Artistic Generation and Translation

December 10, 2024
著者: Zixuan Ye, Huijuan Huang, Xintao Wang, Pengfei Wan, Di Zhang, Wenhan Luo
cs.AI

要旨

ビデオ生成モデルにおいて、スタイル制御は一般的に人気があります。既存の手法は、しばしば与えられたスタイルからかけ離れたビデオを生成し、コンテンツの漏洩を引き起こし、1つのビデオを所望のスタイルに転送するのに苦労します。私たちの最初の観察結果は、スタイル抽出段階が重要であるということです。一方、既存の手法はグローバルなスタイルを強調していますが、ローカルなテクスチャを無視しています。コンテンツの漏洩を防ぎつつ、テクスチャ特徴をもたらすために、プロンプトパッチの類似性に基づいてコンテンツ関連のパッチをフィルタリングし、スタイル関連のパッチを保持します。グローバルなスタイル抽出のために、モデルの錯覚を通じて対照学習を促進するために、対になるスタイルデータセットを生成します。これにより、絶対的なスタイルの一貫性が大幅に向上します。さらに、画像からビデオへのギャップを埋めるために、静止画像の上で軽量なモーションアダプタをトレーニングし、暗黙的にスタイル化の範囲を拡張し、画像でトレーニングされたモデルをビデオにシームレスに適用できるようにします。これらの取り組みの恩恵を受けて、当社の手法であるStyleMasterは、スタイルの類似性と時間的な一貫性の両方で著しい改善を達成するだけでなく、灰色のタイルControlNetを用いたビデオスタイル転送にも容易に一般化できます。幅広い実験と視覚化により、StyleMasterが競合他社を大幅に凌駕し、テキストコンテンツに適合し、参照画像のスタイルに密接に似た高品質なスタイル化されたビデオを効果的に生成することが示されています。弊社のプロジェクトページは以下にあります:https://zixuan-ye.github.io/stylemaster
English
Style control has been popular in video generation models. Existing methods often generate videos far from the given style, cause content leakage, and struggle to transfer one video to the desired style. Our first observation is that the style extraction stage matters, whereas existing methods emphasize global style but ignore local textures. In order to bring texture features while preventing content leakage, we filter content-related patches while retaining style ones based on prompt-patch similarity; for global style extraction, we generate a paired style dataset through model illusion to facilitate contrastive learning, which greatly enhances the absolute style consistency. Moreover, to fill in the image-to-video gap, we train a lightweight motion adapter on still videos, which implicitly enhances stylization extent, and enables our image-trained model to be seamlessly applied to videos. Benefited from these efforts, our approach, StyleMaster, not only achieves significant improvement in both style resemblance and temporal coherence, but also can easily generalize to video style transfer with a gray tile ControlNet. Extensive experiments and visualizations demonstrate that StyleMaster significantly outperforms competitors, effectively generating high-quality stylized videos that align with textual content and closely resemble the style of reference images. Our project page is at https://zixuan-ye.github.io/stylemaster

Summary

AI-Generated Summary

PDF193December 12, 2024