Detecção Proativa de Clonagem de Voz com Marca d'Água Localizada

Resumo

No campo em rápida evolução dos modelos generativos de fala, há uma necessidade urgente de garantir a autenticidade do áudio contra os riscos de clonagem de voz. Apresentamos o AudioSeal, a primeira técnica de marca d'água de áudio projetada especificamente para detecção localizada de fala gerada por IA. O AudioSeal emprega uma arquitetura de gerador/detector treinada em conjunto com uma função de perda de localização para permitir a detecção localizada da marca d'água até o nível de amostra, e uma nova função de perda perceptual inspirada no mascaramento auditivo, que permite ao AudioSeal alcançar melhor imperceptibilidade. O AudioSeal atinge desempenho de ponta em termos de robustez a manipulações de áudio da vida real e imperceptibilidade, com base em métricas automáticas e de avaliação humana. Além disso, o AudioSeal foi projetado com um detector rápido e de passagem única, que supera significativamente os modelos existentes em velocidade - alcançando detecção até duas ordens de magnitude mais rápida, tornando-o ideal para aplicações em larga escala e em tempo real.

English

In the rapidly evolving field of speech generative models, there is a pressing need to ensure audio authenticity against the risks of voice cloning. We present AudioSeal, the first audio watermarking technique designed specifically for localized detection of AI-generated speech. AudioSeal employs a generator/detector architecture trained jointly with a localization loss to enable localized watermark detection up to the sample level, and a novel perceptual loss inspired by auditory masking, that enables AudioSeal to achieve better imperceptibility. AudioSeal achieves state-of-the-art performance in terms of robustness to real life audio manipulations and imperceptibility based on automatic and human evaluation metrics. Additionally, AudioSeal is designed with a fast, single-pass detector, that significantly surpasses existing models in speed - achieving detection up to two orders of magnitude faster, making it ideal for large-scale and real-time applications.

Detecção Proativa de Clonagem de Voz com Marca d'Água Localizada

Proactive Detection of Voice Cloning with Localized Watermarking

Resumo

Support