Impronta Digitale dell'Avatar per l'Utilizzo Autorizzato di Video Sintetici con Testa Parlante
Avatar Fingerprinting for Authorized Use of Synthetic Talking-Head Videos
May 5, 2023
Autori: Ekta Prashnani, Koki Nagano, Shalini De Mello, David Luebke, Orazio Gallo
cs.AI
Abstract
I moderni generatori producono video di volti parlanti con livelli impressionanti di fotorealismo, aprendo la strada a nuove esperienze utente come la videoconferenza con budget di banda limitati. La loro adozione sicura, tuttavia, richiede un meccanismo per verificare se il video generato è affidabile. Ad esempio, per la videoconferenza è necessario identificare i casi in cui un ritratto video sintetico utilizza l'aspetto di un individuo senza il suo consenso. Definiamo questo compito come "fingerprinting degli avatar". Proponiamo di affrontarlo sfruttando le firme del movimento facciale uniche per ogni persona. Nello specifico, apprendiamo un embedding in cui le firme del movimento di un'identità sono raggruppate insieme e allontanate da quelle di altre identità, indipendentemente dall'aspetto nel video sintetico. Gli algoritmi di fingerprinting degli avatar saranno cruciali man mano che i generatori di volti parlanti diventano più diffusi, eppure non esistono dataset su larga scala per questo nuovo compito. Pertanto, contribuiamo con un ampio dataset di persone che recitano monologhi brevi sia scriptati che improvvisati, accompagnati da video sintetici in cui generiamo video di una persona utilizzando l'aspetto facciale di un'altra. Pagina del progetto: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.
English
Modern generators render talking-head videos with impressive levels of
photorealism, ushering in new user experiences such as videoconferencing under
constrained bandwidth budgets. Their safe adoption, however, requires a
mechanism to verify if the rendered video is trustworthy. For instance, for
videoconferencing we must identify cases in which a synthetic video portrait
uses the appearance of an individual without their consent. We term this task
avatar fingerprinting. We propose to tackle it by leveraging facial motion
signatures unique to each person. Specifically, we learn an embedding in which
the motion signatures of one identity are grouped together, and pushed away
from those of other identities, regardless of the appearance in the synthetic
video. Avatar fingerprinting algorithms will be critical as talking head
generators become more ubiquitous, and yet no large scale datasets exist for
this new task. Therefore, we contribute a large dataset of people delivering
scripted and improvised short monologues, accompanied by synthetic videos in
which we render videos of one person using the facial appearance of another.
Project page: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.