Avatar-vingerafdrukken voor geautoriseerd gebruik van synthetische pratende-hoofdvideo's

Samenvatting

Moderne generatoren produceren pratende hoofdvideo's met indrukwekkende niveaus van fotorealisme, wat nieuwe gebruikerservaringen mogelijk maakt, zoals videoconferenties met beperkte bandbreedtebudgetten. Voor een veilige adoptie is echter een mechanisme nodig om te verifiëren of de gegenereerde video betrouwbaar is. Bij videoconferenties moeten we bijvoorbeeld gevallen identificeren waarin een synthetische videoportret het uiterlijk van een individu gebruikt zonder diens toestemming. We noemen deze taak avatar fingerprinting. We stellen voor om dit aan te pakken door gebruik te maken van unieke gezichtsbewegingssignaturen van elke persoon. Specifiek leren we een embedding waarin de bewegingssignaturen van één identiteit bij elkaar worden gegroepeerd en worden gescheiden van die van andere identiteiten, ongeacht het uiterlijk in de synthetische video. Avatar fingerprinting-algoritmen zullen cruciaal worden naarmate pratende hoofdgeneratoren alomtegenwoordiger worden, en toch bestaan er geen grootschalige datasets voor deze nieuwe taak. Daarom dragen we een grote dataset bij van mensen die voorbereide en geïmproviseerde korte monologen voordragen, vergezeld van synthetische video's waarin we video's van één persoon renderen met het gezichtsuiterlijk van een ander. Projectpagina: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.

English

Modern generators render talking-head videos with impressive levels of photorealism, ushering in new user experiences such as videoconferencing under constrained bandwidth budgets. Their safe adoption, however, requires a mechanism to verify if the rendered video is trustworthy. For instance, for videoconferencing we must identify cases in which a synthetic video portrait uses the appearance of an individual without their consent. We term this task avatar fingerprinting. We propose to tackle it by leveraging facial motion signatures unique to each person. Specifically, we learn an embedding in which the motion signatures of one identity are grouped together, and pushed away from those of other identities, regardless of the appearance in the synthetic video. Avatar fingerprinting algorithms will be critical as talking head generators become more ubiquitous, and yet no large scale datasets exist for this new task. Therefore, we contribute a large dataset of people delivering scripted and improvised short monologues, accompanied by synthetic videos in which we render videos of one person using the facial appearance of another. Project page: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.

Avatar-vingerafdrukken voor geautoriseerd gebruik van synthetische pratende-hoofdvideo's

Avatar Fingerprinting for Authorized Use of Synthetic Talking-Head Videos

Samenvatting

Support