合成話者頭部動画の認可利用のためのアバターフィンガープリンティング
Avatar Fingerprinting for Authorized Use of Synthetic Talking-Head Videos
May 5, 2023
著者: Ekta Prashnani, Koki Nagano, Shalini De Mello, David Luebke, Orazio Gallo
cs.AI
要旨
現代のジェネレータは、フォトリアルなレベルで驚くほどリアルなトーキングヘッド動画を生成し、制約のある帯域幅予算下でのビデオ会議など、新たなユーザー体験をもたらしています。しかし、その安全な採用には、生成された動画が信頼できるかどうかを検証するメカニズムが必要です。例えば、ビデオ会議において、個人の外見を無断で使用した合成ビデオポートレートを特定しなければなりません。私たちはこのタスクを「アバターフィンガープリンティング」と呼びます。これを解決するために、各個人に固有の顔の動きの特徴を活用することを提案します。具体的には、合成ビデオ内の外見に関係なく、ある人物の動きの特徴が一つのグループにまとめられ、他の人物の特徴から遠ざけられるような埋め込みを学習します。トーキングヘッドジェネレータがより普及するにつれて、アバターフィンガープリンティングアルゴリズムは重要になりますが、この新しいタスクのための大規模なデータセットはまだ存在しません。そこで、私たちは、スクリプトに基づいた即興の短いモノローグを話す人々の大規模なデータセットを提供し、その中で一人の人物の外見を使用して別の人物の動画を生成した合成ビデオを付属させます。プロジェクトページ: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/。
English
Modern generators render talking-head videos with impressive levels of
photorealism, ushering in new user experiences such as videoconferencing under
constrained bandwidth budgets. Their safe adoption, however, requires a
mechanism to verify if the rendered video is trustworthy. For instance, for
videoconferencing we must identify cases in which a synthetic video portrait
uses the appearance of an individual without their consent. We term this task
avatar fingerprinting. We propose to tackle it by leveraging facial motion
signatures unique to each person. Specifically, we learn an embedding in which
the motion signatures of one identity are grouped together, and pushed away
from those of other identities, regardless of the appearance in the synthetic
video. Avatar fingerprinting algorithms will be critical as talking head
generators become more ubiquitous, and yet no large scale datasets exist for
this new task. Therefore, we contribute a large dataset of people delivering
scripted and improvised short monologues, accompanied by synthetic videos in
which we render videos of one person using the facial appearance of another.
Project page: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.