Proaktive Erkennung von Sprachklonierung durch lokalisierte Wasserzeichenverfahren
Proactive Detection of Voice Cloning with Localized Watermarking
January 30, 2024
Autoren: Robin San Roman, Pierre Fernandez, Alexandre Défossez, Teddy Furon, Tuan Tran, Hady Elsahar
cs.AI
Zusammenfassung
Im sich rasant entwickelnden Bereich der Sprachgenerierungsmodelle besteht ein dringender Bedarf, die Authentizität von Audioinhalten gegen die Risiken des Voice Clonings zu gewährleisten. Wir präsentieren AudioSeal, die erste Audio-Wasserzeichen-Technik, die speziell für die lokalisierte Erkennung von KI-generierter Sprache entwickelt wurde. AudioSeal verwendet eine Generator/Detektor-Architektur, die gemeinsam mit einem Lokalisierungsverlust trainiert wird, um eine lokalisierte Wasserzeichenerkennung bis auf die Probeebene zu ermöglichen, sowie einen neuartigen Wahrnehmungsverlust, inspiriert von der auditiven Maskierung, der AudioSeal eine bessere Unauffälligkeit verleiht. AudioSeal erreicht Spitzenleistungen in Bezug auf Robustheit gegenüber realen Audiomanipulationen und Unauffälligkeit, basierend auf automatischen und menschlichen Bewertungsmetriken. Darüber hinaus ist AudioSeal mit einem schnellen, einstufigen Detektor ausgestattet, der bestehende Modelle in der Geschwindigkeit deutlich übertrifft – die Erkennung erfolgt bis zu zwei Größenordnungen schneller, was es ideal für groß angelegte und Echtzeitanwendungen macht.
English
In the rapidly evolving field of speech generative models, there is a
pressing need to ensure audio authenticity against the risks of voice cloning.
We present AudioSeal, the first audio watermarking technique designed
specifically for localized detection of AI-generated speech. AudioSeal employs
a generator/detector architecture trained jointly with a localization loss to
enable localized watermark detection up to the sample level, and a novel
perceptual loss inspired by auditory masking, that enables AudioSeal to achieve
better imperceptibility. AudioSeal achieves state-of-the-art performance in
terms of robustness to real life audio manipulations and imperceptibility based
on automatic and human evaluation metrics. Additionally, AudioSeal is designed
with a fast, single-pass detector, that significantly surpasses existing models
in speed - achieving detection up to two orders of magnitude faster, making it
ideal for large-scale and real-time applications.