Detección proactiva de clonación de voz mediante marcas de agua localizadas
Proactive Detection of Voice Cloning with Localized Watermarking
January 30, 2024
Autores: Robin San Roman, Pierre Fernandez, Alexandre Défossez, Teddy Furon, Tuan Tran, Hady Elsahar
cs.AI
Resumen
En el campo en rápida evolución de los modelos generativos de voz, existe una necesidad urgente de garantizar la autenticidad del audio frente a los riesgos de clonación de voz. Presentamos AudioSeal, la primera técnica de marca de agua de audio diseñada específicamente para la detección localizada de voz generada por IA. AudioSeal emplea una arquitectura generador/detector entrenada conjuntamente con una función de pérdida de localización que permite la detección localizada de la marca de agua hasta el nivel de muestra, y una novedosa función de pérdida perceptual inspirada en el enmascaramiento auditivo, que permite a AudioSeal lograr una mejor imperceptibilidad. AudioSeal alcanza un rendimiento de vanguardia en términos de robustez frente a manipulaciones de audio de la vida real y de imperceptibilidad, basándose en métricas de evaluación automáticas y humanas. Además, AudioSeal está diseñado con un detector rápido de una sola pasada, que supera significativamente a los modelos existentes en velocidad, logrando detecciones hasta dos órdenes de magnitud más rápidas, lo que lo hace ideal para aplicaciones a gran escala y en tiempo real.
English
In the rapidly evolving field of speech generative models, there is a
pressing need to ensure audio authenticity against the risks of voice cloning.
We present AudioSeal, the first audio watermarking technique designed
specifically for localized detection of AI-generated speech. AudioSeal employs
a generator/detector architecture trained jointly with a localization loss to
enable localized watermark detection up to the sample level, and a novel
perceptual loss inspired by auditory masking, that enables AudioSeal to achieve
better imperceptibility. AudioSeal achieves state-of-the-art performance in
terms of robustness to real life audio manipulations and imperceptibility based
on automatic and human evaluation metrics. Additionally, AudioSeal is designed
with a fast, single-pass detector, that significantly surpasses existing models
in speed - achieving detection up to two orders of magnitude faster, making it
ideal for large-scale and real-time applications.