Detección proactiva de clonación de voz mediante marcas de agua localizadas

Resumen

En el campo en rápida evolución de los modelos generativos de voz, existe una necesidad urgente de garantizar la autenticidad del audio frente a los riesgos de clonación de voz. Presentamos AudioSeal, la primera técnica de marca de agua de audio diseñada específicamente para la detección localizada de voz generada por IA. AudioSeal emplea una arquitectura generador/detector entrenada conjuntamente con una función de pérdida de localización que permite la detección localizada de la marca de agua hasta el nivel de muestra, y una novedosa función de pérdida perceptual inspirada en el enmascaramiento auditivo, que permite a AudioSeal lograr una mejor imperceptibilidad. AudioSeal alcanza un rendimiento de vanguardia en términos de robustez frente a manipulaciones de audio de la vida real y de imperceptibilidad, basándose en métricas de evaluación automáticas y humanas. Además, AudioSeal está diseñado con un detector rápido de una sola pasada, que supera significativamente a los modelos existentes en velocidad, logrando detecciones hasta dos órdenes de magnitud más rápidas, lo que lo hace ideal para aplicaciones a gran escala y en tiempo real.

English

In the rapidly evolving field of speech generative models, there is a pressing need to ensure audio authenticity against the risks of voice cloning. We present AudioSeal, the first audio watermarking technique designed specifically for localized detection of AI-generated speech. AudioSeal employs a generator/detector architecture trained jointly with a localization loss to enable localized watermark detection up to the sample level, and a novel perceptual loss inspired by auditory masking, that enables AudioSeal to achieve better imperceptibility. AudioSeal achieves state-of-the-art performance in terms of robustness to real life audio manipulations and imperceptibility based on automatic and human evaluation metrics. Additionally, AudioSeal is designed with a fast, single-pass detector, that significantly surpasses existing models in speed - achieving detection up to two orders of magnitude faster, making it ideal for large-scale and real-time applications.

Detección proactiva de clonación de voz mediante marcas de agua localizadas

Proactive Detection of Voice Cloning with Localized Watermarking

Resumen

Support