Identificação de Avatares para Uso Autorizado de Vídeos Sintéticos de Cabeças Falantes
Avatar Fingerprinting for Authorized Use of Synthetic Talking-Head Videos
May 5, 2023
Autores: Ekta Prashnani, Koki Nagano, Shalini De Mello, David Luebke, Orazio Gallo
cs.AI
Resumo
Geradores modernos produzem vídeos de cabeças falantes com níveis impressionantes de fotorealismo, inaugurando novas experiências de usuário, como videoconferências com orçamentos limitados de banda. No entanto, sua adoção segura exige um mecanismo para verificar se o vídeo renderizado é confiável. Por exemplo, em videoconferências, devemos identificar casos em que um retrato de vídeo sintético utiliza a aparência de um indivíduo sem seu consentimento. Denominamos essa tarefa de impressão digital de avatar. Propomos abordá-la aproveitando assinaturas de movimento facial únicas para cada pessoa. Especificamente, aprendemos um embedding no qual as assinaturas de movimento de uma identidade são agrupadas e afastadas das de outras identidades, independentemente da aparência no vídeo sintético. Algoritmos de impressão digital de avatar serão cruciais à medida que os geradores de cabeças falantes se tornam mais ubíquos, e ainda não existem conjuntos de dados em grande escala para essa nova tarefa. Portanto, contribuímos com um grande conjunto de dados de pessoas realizando monólogos curtos, tanto roteirizados quanto improvisados, acompanhados por vídeos sintéticos nos quais renderizamos vídeos de uma pessoa usando a aparência facial de outra. Página do projeto: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.
English
Modern generators render talking-head videos with impressive levels of
photorealism, ushering in new user experiences such as videoconferencing under
constrained bandwidth budgets. Their safe adoption, however, requires a
mechanism to verify if the rendered video is trustworthy. For instance, for
videoconferencing we must identify cases in which a synthetic video portrait
uses the appearance of an individual without their consent. We term this task
avatar fingerprinting. We propose to tackle it by leveraging facial motion
signatures unique to each person. Specifically, we learn an embedding in which
the motion signatures of one identity are grouped together, and pushed away
from those of other identities, regardless of the appearance in the synthetic
video. Avatar fingerprinting algorithms will be critical as talking head
generators become more ubiquitous, and yet no large scale datasets exist for
this new task. Therefore, we contribute a large dataset of people delivering
scripted and improvised short monologues, accompanied by synthetic videos in
which we render videos of one person using the facial appearance of another.
Project page: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.