Avatar-vingerafdrukken voor geautoriseerd gebruik van synthetische pratende-hoofdvideo's
Avatar Fingerprinting for Authorized Use of Synthetic Talking-Head Videos
May 5, 2023
Auteurs: Ekta Prashnani, Koki Nagano, Shalini De Mello, David Luebke, Orazio Gallo
cs.AI
Samenvatting
Moderne generatoren produceren pratende hoofdvideo's met indrukwekkende niveaus van fotorealisme, wat nieuwe gebruikerservaringen mogelijk maakt, zoals videoconferenties met beperkte bandbreedtebudgetten. Voor een veilige adoptie is echter een mechanisme nodig om te verifiëren of de gegenereerde video betrouwbaar is. Bij videoconferenties moeten we bijvoorbeeld gevallen identificeren waarin een synthetische videoportret het uiterlijk van een individu gebruikt zonder diens toestemming. We noemen deze taak avatar fingerprinting. We stellen voor om dit aan te pakken door gebruik te maken van unieke gezichtsbewegingssignaturen van elke persoon. Specifiek leren we een embedding waarin de bewegingssignaturen van één identiteit bij elkaar worden gegroepeerd en worden gescheiden van die van andere identiteiten, ongeacht het uiterlijk in de synthetische video. Avatar fingerprinting-algoritmen zullen cruciaal worden naarmate pratende hoofdgeneratoren alomtegenwoordiger worden, en toch bestaan er geen grootschalige datasets voor deze nieuwe taak. Daarom dragen we een grote dataset bij van mensen die voorbereide en geïmproviseerde korte monologen voordragen, vergezeld van synthetische video's waarin we video's van één persoon renderen met het gezichtsuiterlijk van een ander. Projectpagina: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.
English
Modern generators render talking-head videos with impressive levels of
photorealism, ushering in new user experiences such as videoconferencing under
constrained bandwidth budgets. Their safe adoption, however, requires a
mechanism to verify if the rendered video is trustworthy. For instance, for
videoconferencing we must identify cases in which a synthetic video portrait
uses the appearance of an individual without their consent. We term this task
avatar fingerprinting. We propose to tackle it by leveraging facial motion
signatures unique to each person. Specifically, we learn an embedding in which
the motion signatures of one identity are grouped together, and pushed away
from those of other identities, regardless of the appearance in the synthetic
video. Avatar fingerprinting algorithms will be critical as talking head
generators become more ubiquitous, and yet no large scale datasets exist for
this new task. Therefore, we contribute a large dataset of people delivering
scripted and improvised short monologues, accompanied by synthetic videos in
which we render videos of one person using the facial appearance of another.
Project page: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.