음성 복제의 능동적 탐지를 위한 지역화된 워터마킹 기법
Proactive Detection of Voice Cloning with Localized Watermarking
January 30, 2024
저자: Robin San Roman, Pierre Fernandez, Alexandre Défossez, Teddy Furon, Tuan Tran, Hady Elsahar
cs.AI
초록
음성 생성 모델 분야가 급속도로 발전함에 따라, 음성 복제 위험에 대비한 오디오 진위성 보장이 시급한 과제로 대두되고 있다. 본 연구에서는 AI 생성 음성의 국소적 탐지를 위해 특별히 설계된 최초의 오디오 워터마킹 기술인 AudioSeal을 제안한다. AudioSeal은 샘플 수준까지 국소적 워터마크 탐지를 가능하게 하는 국소화 손실과 함께 공동으로 학습된 생성기/탐지기 아키텍처를 채택하며, 청각 마스킹에서 영감을 받은 새로운 지각 손실을 통해 더 나은 비가시성을 달성한다. AudioSeal은 실제 오디오 조작에 대한 견고성과 자동 및 인간 평가 지표 기반의 비가시성 측면에서 최첨단 성능을 보인다. 또한, AudioSeal은 빠른 단일 패스 탐지기로 설계되어 기존 모델 대비 최대 두 배 빠른 탐지 속도를 달성함으로써 대규모 및 실시간 애플리케이션에 이상적이다.
English
In the rapidly evolving field of speech generative models, there is a
pressing need to ensure audio authenticity against the risks of voice cloning.
We present AudioSeal, the first audio watermarking technique designed
specifically for localized detection of AI-generated speech. AudioSeal employs
a generator/detector architecture trained jointly with a localization loss to
enable localized watermark detection up to the sample level, and a novel
perceptual loss inspired by auditory masking, that enables AudioSeal to achieve
better imperceptibility. AudioSeal achieves state-of-the-art performance in
terms of robustness to real life audio manipulations and imperceptibility based
on automatic and human evaluation metrics. Additionally, AudioSeal is designed
with a fast, single-pass detector, that significantly surpasses existing models
in speed - achieving detection up to two orders of magnitude faster, making it
ideal for large-scale and real-time applications.