Empreinte Avatar pour l'Utilisation Autorisée de Vidéos de Têtes Parlantes Synthétiques
Avatar Fingerprinting for Authorized Use of Synthetic Talking-Head Videos
May 5, 2023
Auteurs: Ekta Prashnani, Koki Nagano, Shalini De Mello, David Luebke, Orazio Gallo
cs.AI
Résumé
Les générateurs modernes produisent des vidéos de têtes parlantes avec un niveau impressionnant de photoréalisme, ouvrant la voie à de nouvelles expériences utilisateur telles que la visioconférence avec des contraintes de bande passante réduites. Cependant, leur adoption en toute sécurité nécessite un mécanisme pour vérifier si la vidéo générée est digne de confiance. Par exemple, pour la visioconférence, il est essentiel d'identifier les cas où un portrait vidéo synthétique utilise l'apparence d'une personne sans son consentement. Nous nommons cette tâche l'**empreinte d'avatar**. Nous proposons de l'aborder en exploitant les signatures de mouvement faciales uniques à chaque individu. Plus précisément, nous apprenons un espace d'embedding dans lequel les signatures de mouvement d'une même identité sont regroupées et éloignées de celles des autres identités, indépendamment de l'apparence dans la vidéo synthétique. Les algorithmes d'empreinte d'avatar seront cruciaux à mesure que les générateurs de têtes parlantes deviendront plus omniprésents, et pourtant aucun jeu de données à grande échelle n'existe pour cette nouvelle tâche. Par conséquent, nous contribuons avec un vaste ensemble de données de personnes délivrant des monologues courts, à la fois scriptés et improvisés, accompagnés de vidéos synthétiques dans lesquelles nous générons des vidéos d'une personne en utilisant l'apparence faciale d'une autre. Page du projet : https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.
English
Modern generators render talking-head videos with impressive levels of
photorealism, ushering in new user experiences such as videoconferencing under
constrained bandwidth budgets. Their safe adoption, however, requires a
mechanism to verify if the rendered video is trustworthy. For instance, for
videoconferencing we must identify cases in which a synthetic video portrait
uses the appearance of an individual without their consent. We term this task
avatar fingerprinting. We propose to tackle it by leveraging facial motion
signatures unique to each person. Specifically, we learn an embedding in which
the motion signatures of one identity are grouped together, and pushed away
from those of other identities, regardless of the appearance in the synthetic
video. Avatar fingerprinting algorithms will be critical as talking head
generators become more ubiquitous, and yet no large scale datasets exist for
this new task. Therefore, we contribute a large dataset of people delivering
scripted and improvised short monologues, accompanied by synthetic videos in
which we render videos of one person using the facial appearance of another.
Project page: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.