Идентификация аватаров для авторизованного использования синтетических видео с говорящими головами
Avatar Fingerprinting for Authorized Use of Synthetic Talking-Head Videos
May 5, 2023
Авторы: Ekta Prashnani, Koki Nagano, Shalini De Mello, David Luebke, Orazio Gallo
cs.AI
Аннотация
Современные генераторы создают видеоролики с говорящими головами, достигая впечатляющего уровня фотореализма, что открывает новые возможности для пользователей, такие как видеоконференции при ограниченной пропускной способности сети. Однако для безопасного использования таких технологий необходим механизм проверки достоверности созданного видео. Например, в случае видеоконференций важно выявлять ситуации, когда синтетическое видео использует внешность человека без его согласия. Мы называем эту задачу "аватароскопией". Для её решения мы предлагаем использовать уникальные для каждого человека характеристики мимики. В частности, мы обучаем эмбеддинг, в котором характеристики мимики одного человека группируются вместе и отделяются от характеристик других людей, независимо от внешности в синтетическом видео. Алгоритмы аватароскопии станут критически важными по мере того, как генераторы говорящих голов будут становиться всё более распространёнными, однако для этой новой задачи пока не существует крупномасштабных наборов данных. Поэтому мы представляем обширный набор данных, включающий записи людей, произносящих короткие монологи по сценарию и импровизированно, а также синтетические видео, в которых внешность одного человека используется для создания видео другого. Страница проекта: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.
English
Modern generators render talking-head videos with impressive levels of
photorealism, ushering in new user experiences such as videoconferencing under
constrained bandwidth budgets. Their safe adoption, however, requires a
mechanism to verify if the rendered video is trustworthy. For instance, for
videoconferencing we must identify cases in which a synthetic video portrait
uses the appearance of an individual without their consent. We term this task
avatar fingerprinting. We propose to tackle it by leveraging facial motion
signatures unique to each person. Specifically, we learn an embedding in which
the motion signatures of one identity are grouped together, and pushed away
from those of other identities, regardless of the appearance in the synthetic
video. Avatar fingerprinting algorithms will be critical as talking head
generators become more ubiquitous, and yet no large scale datasets exist for
this new task. Therefore, we contribute a large dataset of people delivering
scripted and improvised short monologues, accompanied by synthetic videos in
which we render videos of one person using the facial appearance of another.
Project page: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.