Detecção Proativa de Clonagem de Voz com Marca d'Água Localizada
Proactive Detection of Voice Cloning with Localized Watermarking
January 30, 2024
Autores: Robin San Roman, Pierre Fernandez, Alexandre Défossez, Teddy Furon, Tuan Tran, Hady Elsahar
cs.AI
Resumo
No campo em rápida evolução dos modelos generativos de fala, há uma necessidade urgente de garantir a autenticidade do áudio contra os riscos de clonagem de voz. Apresentamos o AudioSeal, a primeira técnica de marca d'água de áudio projetada especificamente para detecção localizada de fala gerada por IA. O AudioSeal emprega uma arquitetura de gerador/detector treinada em conjunto com uma função de perda de localização para permitir a detecção localizada da marca d'água até o nível de amostra, e uma nova função de perda perceptual inspirada no mascaramento auditivo, que permite ao AudioSeal alcançar melhor imperceptibilidade. O AudioSeal atinge desempenho de ponta em termos de robustez a manipulações de áudio da vida real e imperceptibilidade, com base em métricas automáticas e de avaliação humana. Além disso, o AudioSeal foi projetado com um detector rápido e de passagem única, que supera significativamente os modelos existentes em velocidade - alcançando detecção até duas ordens de magnitude mais rápida, tornando-o ideal para aplicações em larga escala e em tempo real.
English
In the rapidly evolving field of speech generative models, there is a
pressing need to ensure audio authenticity against the risks of voice cloning.
We present AudioSeal, the first audio watermarking technique designed
specifically for localized detection of AI-generated speech. AudioSeal employs
a generator/detector architecture trained jointly with a localization loss to
enable localized watermark detection up to the sample level, and a novel
perceptual loss inspired by auditory masking, that enables AudioSeal to achieve
better imperceptibility. AudioSeal achieves state-of-the-art performance in
terms of robustness to real life audio manipulations and imperceptibility based
on automatic and human evaluation metrics. Additionally, AudioSeal is designed
with a fast, single-pass detector, that significantly surpasses existing models
in speed - achieving detection up to two orders of magnitude faster, making it
ideal for large-scale and real-time applications.