Avatar-Fingerprinting für die autorisierte Nutzung von synthetischen Talking-Head-Videos
Avatar Fingerprinting for Authorized Use of Synthetic Talking-Head Videos
May 5, 2023
Autoren: Ekta Prashnani, Koki Nagano, Shalini De Mello, David Luebke, Orazio Gallo
cs.AI
Zusammenfassung
Moderne Generatoren erzeugen Talking-Head-Videos mit beeindruckendem Fotorealismus und ermöglichen damit neue Nutzererlebnisse wie Videokonferenzen unter begrenzten Bandbreitenbudgets. Ihre sichere Einführung erfordert jedoch einen Mechanismus, um zu überprüfen, ob das gerenderte Video vertrauenswürdig ist. Beispielsweise müssen wir bei Videokonferenzen Fälle identifizieren, in denen ein synthetisches Video-Porträt das Aussehen einer Person ohne deren Zustimmung verwendet. Wir bezeichnen diese Aufgabe als Avatar-Fingerprinting. Wir schlagen vor, dieses Problem zu lösen, indem wir Gesichtsbewegungssignaturen nutzen, die für jede Person einzigartig sind. Konkret lernen wir ein Embedding, in dem die Bewegungssignaturen einer Identität zusammengefasst und von denen anderer Identitäten getrennt werden, unabhängig vom Erscheinungsbild im synthetischen Video. Avatar-Fingerprinting-Algorithmen werden entscheidend sein, da Talking-Head-Generatoren immer weiter verbreitet werden, und dennoch existieren keine groß angelegten Datensätze für diese neue Aufgabe. Daher stellen wir einen umfangreichen Datensatz zur Verfügung, in dem Personen einstudierten und improvisierten kurzen Monologen vortragen, begleitet von synthetischen Videos, in denen wir Videos einer Person mit dem Gesichtsaussehen einer anderen darstellen. Projektseite: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.
English
Modern generators render talking-head videos with impressive levels of
photorealism, ushering in new user experiences such as videoconferencing under
constrained bandwidth budgets. Their safe adoption, however, requires a
mechanism to verify if the rendered video is trustworthy. For instance, for
videoconferencing we must identify cases in which a synthetic video portrait
uses the appearance of an individual without their consent. We term this task
avatar fingerprinting. We propose to tackle it by leveraging facial motion
signatures unique to each person. Specifically, we learn an embedding in which
the motion signatures of one identity are grouped together, and pushed away
from those of other identities, regardless of the appearance in the synthetic
video. Avatar fingerprinting algorithms will be critical as talking head
generators become more ubiquitous, and yet no large scale datasets exist for
this new task. Therefore, we contribute a large dataset of people delivering
scripted and improvised short monologues, accompanied by synthetic videos in
which we render videos of one person using the facial appearance of another.
Project page: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.