Проактивное обнаружение клонирования голоса с использованием локализованного внедрения водяных знаков
Proactive Detection of Voice Cloning with Localized Watermarking
January 30, 2024
Авторы: Robin San Roman, Pierre Fernandez, Alexandre Défossez, Teddy Furon, Tuan Tran, Hady Elsahar
cs.AI
Аннотация
В быстро развивающейся области генеративных моделей речи существует острая необходимость обеспечения подлинности аудио в условиях рисков клонирования голоса. Мы представляем AudioSeal — первую технологию аудиоводяных знаков, специально разработанную для локализованного обнаружения речи, созданной искусственным интеллектом. AudioSeal использует архитектуру генератора/детектора, обученную совместно с функцией потерь для локализации, что позволяет обнаруживать водяные знаки с точностью до уровня отдельных сэмплов, а также новую перцептивную функцию потерь, вдохновленную аудиомаскированием, которая обеспечивает лучшую незаметность. AudioSeal демонстрирует передовые результаты с точки зрения устойчивости к реальным манипуляциям с аудио и незаметности, что подтверждается автоматическими и человеческими метриками оценки. Кроме того, AudioSeal оснащен быстрым однопроходным детектором, который значительно превосходит существующие модели по скорости — обеспечивая обнаружение до двух порядков быстрее, что делает его идеальным для крупномасштабных и приложений реального времени.
English
In the rapidly evolving field of speech generative models, there is a
pressing need to ensure audio authenticity against the risks of voice cloning.
We present AudioSeal, the first audio watermarking technique designed
specifically for localized detection of AI-generated speech. AudioSeal employs
a generator/detector architecture trained jointly with a localization loss to
enable localized watermark detection up to the sample level, and a novel
perceptual loss inspired by auditory masking, that enables AudioSeal to achieve
better imperceptibility. AudioSeal achieves state-of-the-art performance in
terms of robustness to real life audio manipulations and imperceptibility based
on automatic and human evaluation metrics. Additionally, AudioSeal is designed
with a fast, single-pass detector, that significantly surpasses existing models
in speed - achieving detection up to two orders of magnitude faster, making it
ideal for large-scale and real-time applications.