Proactieve Detectie van Stemklonen met Gelokaliseerde Watermerken
Proactive Detection of Voice Cloning with Localized Watermarking
January 30, 2024
Auteurs: Robin San Roman, Pierre Fernandez, Alexandre Défossez, Teddy Furon, Tuan Tran, Hady Elsahar
cs.AI
Samenvatting
In het snel evoluerende veld van spraakgeneratieve modellen is er een dringende behoefte om de authenticiteit van audio te waarborgen tegen de risico's van stemklonen. Wij presenteren AudioSeal, de eerste audio-watermarkingtechniek die specifiek is ontworpen voor gelokaliseerde detectie van AI-gegenereerde spraak. AudioSeal maakt gebruik van een generator/detector-architectuur die gezamenlijk wordt getraind met een localisatieverlies om gelokaliseerde watermerkdetectie tot op het sample-niveau mogelijk te maken, en een nieuw perceptueel verlies, geïnspireerd door auditieve maskering, waardoor AudioSeal een betere onopvallendheid kan bereiken. AudioSeal behaalt state-of-the-art prestaties wat betreft robuustheid tegen real-life audiomanipulaties en onopvallendheid, gebaseerd op automatische en menselijke evaluatiemetrics. Daarnaast is AudioSeal ontworpen met een snelle, single-pass detector, die bestaande modellen aanzienlijk overtreft in snelheid – met detectie tot twee ordes van grootte sneller, wat het ideaal maakt voor grootschalige en realtime toepassingen.
English
In the rapidly evolving field of speech generative models, there is a
pressing need to ensure audio authenticity against the risks of voice cloning.
We present AudioSeal, the first audio watermarking technique designed
specifically for localized detection of AI-generated speech. AudioSeal employs
a generator/detector architecture trained jointly with a localization loss to
enable localized watermark detection up to the sample level, and a novel
perceptual loss inspired by auditory masking, that enables AudioSeal to achieve
better imperceptibility. AudioSeal achieves state-of-the-art performance in
terms of robustness to real life audio manipulations and imperceptibility based
on automatic and human evaluation metrics. Additionally, AudioSeal is designed
with a fast, single-pass detector, that significantly surpasses existing models
in speed - achieving detection up to two orders of magnitude faster, making it
ideal for large-scale and real-time applications.