翻訳付きの日次キュレーションされたAI研究論文
本論文では、エッジマップや深度マップなどの制御信号のシーケンスに基づいて動画を生成する制御可能なテキスト・ツー・ビデオ(T2V)拡散モデル「Video-ControlNet」を提案する。Video-ControlNetは、事前学習済みの条件付きテキスト・ツー・イメージ(T2I)拡散モデルを基盤として構築され、空間-時間自己注意機構と学習可能な時間層を組み込むことで、効率的なクロスフレームモデリングを実現している。また、画像ドメインからの動画生成や任意の長さの動画を自己回帰的に生成するために、初フレーム条件付け戦略を提案している。さらに、Video-ControlNetは、入力動画から運動の事前情報を導入するための新しい残差ベースのノイズ初期化戦略を採用し、より一貫性のある動画を生成する。提案されたアーキテクチャと戦略により、Video-ControlNetはリソース効率的な収束を達成し、細かい制御を伴う高品質で一貫性のある動画を生成することができる。様々な動画生成タスク(動画編集や動画スタイル転送など)における広範な実験により、一貫性と品質の面で従来の手法を上回る成功を収めていることを示す。プロジェクトページ: https://controlavideo.github.io/
近年のテキストから画像を生成するモデルは、テキストに忠実な高品質な画像を生成する印象的な能力を示しています。しかし、ユーザーが提供する入力画像に基づいて新しい概念の画像を生成することは、依然として困難な課題です。この問題に対処するため、研究者たちは事前学習済みのテキストから画像を生成するモデルをカスタマイズするための様々な手法を探求してきました。現在、事前学習済みのテキストから画像生成モデルをカスタマイズする既存の手法のほとんどは、過学習を防ぐために正則化技術を使用しています。正則化はカスタマイズの課題を緩和し、テキストガイダンスに基づいた成功したコンテンツ作成を可能にしますが、モデルの能力を制限し、詳細な情報の損失や性能の低下を招く可能性があります。本研究では、正則化を使用せずにカスタマイズされたテキストから画像を生成するための新しいフレームワークを提案します。具体的には、提案するフレームワークはエンコーダネットワークと、正則化を使用せずに過学習問題に対処できる新しいサンプリング手法で構成されています。提案フレームワークにより、ユーザーが提供した1枚の画像のみを使用して、単一のGPU上で大規模なテキストから画像生成モデルを30秒以内にカスタマイズすることが可能です。実験では、提案フレームワークが既存の手法を上回り、より細かい詳細を保持することを実証しています。