VideoJAM:ビデオモデルにおける動き生成の向上のための共同外観-動き表現VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion
Generation in Video Models
最近の著しい進歩にもかかわらず、生成ビデオモデルは依然として実世界の動き、ダイナミクス、物理を捉えるのに苦労しています。本研究では、この制限が従来のピクセル再構成目的から生じることを示します。この目的は、モデルを外観の忠実度を優先し、動きの一貫性を犠牲にする方向にバイアスをかけます。この問題に対処するために、私たちはVideoJAMという新しいフレームワークを導入します。このフレームワークは、ビデオ生成器に効果的な動き事前知識を植え付けるものであり、モデルが共同外観-動き表現を学習することを促します。VideoJAMは、2つの補完的なユニットで構成されています。トレーニング中、我々は目的を拡張して、単一の学習表現から生成されたピクセルとそれに対応する動きの両方を予測するようモデルを促します。推論中、Inner-Guidanceと呼ばれるメカニズムを導入し、モデル自体の進化する動き予測を動的なガイダンス信号として活用することで、生成物を一貫した動きに導きます。特筆すべきは、我々のフレームワークは、最小限の適応を必要とする任意のビデオモデルに適用でき、トレーニングデータの変更やモデルのスケーリングは必要ありません。VideoJAMは、動きの一貫性において最先端の性能を達成し、非常に競争力のあるプロプライエタリモデルを凌駕し、生成物の視覚的品質を向上させます。これらの知見は、外観と動きが補完的であり、効果的に統合されると、ビデオ生成の視覚的品質と一貫性の両方が向上することを強調しています。プロジェクトのウェブサイト:https://hila-chefer.github.io/videojam-paper.github.io/