OmniHuman-1: 1段階条件付き人間アニメーションモデルのスケーリングアップの再考OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human
Animation Models
エンドツーエンドの人間のアニメーション、例えば音声による会話駆動の人間生成は、ここ数年で著しい進歩を遂げてきました。しかし、既存の手法はまだ大規模な一般的なビデオ生成モデルへのスケーリングに苦労しており、それによって実アプリケーションでの潜在能力が制限されています。本論文では、訓練フェーズに動きに関連する条件を混合することでデータをスケーリングアップするOmniHumanというDiffusion Transformerベースのフレームワークを提案します。このために、これらの混合条件に対する2つの訓練原則と、それに対応するモデルアーキテクチャと推論戦略を導入します。これらの設計により、OmniHumanはデータ駆動型の動き生成を最大限に活用し、最終的に高度にリアルな人間のビデオ生成を実現します。さらに、OmniHumanは、顔のクローズアップ、肖像画、ハーフボディ、フルボディなど、さまざまなポートレートコンテンツをサポートし、会話や歌唱の両方をサポートし、人間とオブジェクトの相互作用や難しい体のポーズを処理し、異なる画像スタイルに対応します。既存のエンドツーエンドの音声駆動手法と比較して、OmniHumanはよりリアルなビデオを生成するだけでなく、入力においてより大きな柔軟性を提供します。さらに、複数の駆動モダリティ(音声駆動、ビデオ駆動、および組み合わせ駆動信号)をサポートします。ビデオサンプルはttfamilyプロジェクトページ(https://omnihuman-lab.github.io)で提供されています。