Huella Digital de Avatar para el Uso Autorizado de Videos Sintéticos de Cabeza Parlante
Avatar Fingerprinting for Authorized Use of Synthetic Talking-Head Videos
May 5, 2023
Autores: Ekta Prashnani, Koki Nagano, Shalini De Mello, David Luebke, Orazio Gallo
cs.AI
Resumen
Los generadores modernos producen videos de cabezas parlantes con niveles impresionantes de fotorrealismo, lo que permite nuevas experiencias de usuario, como videoconferencias bajo presupuestos de ancho de banda limitados. Sin embargo, su adopción segura requiere un mecanismo para verificar si el video generado es confiable. Por ejemplo, en videoconferencias, es necesario identificar casos en los que un retrato de video sintético utiliza la apariencia de un individuo sin su consentimiento. Denominamos esta tarea como huella digital de avatares. Proponemos abordarla aprovechando las firmas de movimiento facial únicas de cada persona. Específicamente, aprendemos un espacio de incrustación en el que las firmas de movimiento de una identidad se agrupan y se separan de las de otras identidades, independientemente de la apariencia en el video sintético. Los algoritmos de huella digital de avatares serán críticos a medida que los generadores de cabezas parlantes se vuelvan más omnipresentes, y sin embargo, no existen conjuntos de datos a gran escala para esta nueva tarea. Por lo tanto, contribuimos con un gran conjunto de datos de personas que realizan monólogos cortos, tanto guionizados como improvisados, acompañados de videos sintéticos en los que renderizamos videos de una persona utilizando la apariencia facial de otra. Página del proyecto: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.
English
Modern generators render talking-head videos with impressive levels of
photorealism, ushering in new user experiences such as videoconferencing under
constrained bandwidth budgets. Their safe adoption, however, requires a
mechanism to verify if the rendered video is trustworthy. For instance, for
videoconferencing we must identify cases in which a synthetic video portrait
uses the appearance of an individual without their consent. We term this task
avatar fingerprinting. We propose to tackle it by leveraging facial motion
signatures unique to each person. Specifically, we learn an embedding in which
the motion signatures of one identity are grouped together, and pushed away
from those of other identities, regardless of the appearance in the synthetic
video. Avatar fingerprinting algorithms will be critical as talking head
generators become more ubiquitous, and yet no large scale datasets exist for
this new task. Therefore, we contribute a large dataset of people delivering
scripted and improvised short monologues, accompanied by synthetic videos in
which we render videos of one person using the facial appearance of another.
Project page: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.