ChatPaper.aiChatPaper

OmniHuman-1: 1段階条件付き人間アニメーションモデルのスケーリングアップの再考

OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models

February 3, 2025
著者: Gaojie Lin, Jianwen Jiang, Jiaqi Yang, Zerong Zheng, Chao Liang
cs.AI

要旨

エンドツーエンドの人間のアニメーション、例えば音声による会話駆動の人間生成は、ここ数年で著しい進歩を遂げてきました。しかし、既存の手法はまだ大規模な一般的なビデオ生成モデルへのスケーリングに苦労しており、それによって実アプリケーションでの潜在能力が制限されています。本論文では、訓練フェーズに動きに関連する条件を混合することでデータをスケーリングアップするOmniHumanというDiffusion Transformerベースのフレームワークを提案します。このために、これらの混合条件に対する2つの訓練原則と、それに対応するモデルアーキテクチャと推論戦略を導入します。これらの設計により、OmniHumanはデータ駆動型の動き生成を最大限に活用し、最終的に高度にリアルな人間のビデオ生成を実現します。さらに、OmniHumanは、顔のクローズアップ、肖像画、ハーフボディ、フルボディなど、さまざまなポートレートコンテンツをサポートし、会話や歌唱の両方をサポートし、人間とオブジェクトの相互作用や難しい体のポーズを処理し、異なる画像スタイルに対応します。既存のエンドツーエンドの音声駆動手法と比較して、OmniHumanはよりリアルなビデオを生成するだけでなく、入力においてより大きな柔軟性を提供します。さらに、複数の駆動モダリティ(音声駆動、ビデオ駆動、および組み合わせ駆動信号)をサポートします。ビデオサンプルはttfamilyプロジェクトページ(https://omnihuman-lab.github.io)で提供されています。
English
End-to-end human animation, such as audio-driven talking human generation, has undergone notable advancements in the recent few years. However, existing methods still struggle to scale up as large general video generation models, limiting their potential in real applications. In this paper, we propose OmniHuman, a Diffusion Transformer-based framework that scales up data by mixing motion-related conditions into the training phase. To this end, we introduce two training principles for these mixed conditions, along with the corresponding model architecture and inference strategy. These designs enable OmniHuman to fully leverage data-driven motion generation, ultimately achieving highly realistic human video generation. More importantly, OmniHuman supports various portrait contents (face close-up, portrait, half-body, full-body), supports both talking and singing, handles human-object interactions and challenging body poses, and accommodates different image styles. Compared to existing end-to-end audio-driven methods, OmniHuman not only produces more realistic videos, but also offers greater flexibility in inputs. It also supports multiple driving modalities (audio-driven, video-driven and combined driving signals). Video samples are provided on the ttfamily project page (https://omnihuman-lab.github.io)

Summary

AI-Generated Summary

PDF21319February 4, 2025