Adaptación rápida a nuevos ataques de suplantación de voz: Detección de habla sintetizada con pocos ejemplos bajo cambios de distribución

Resumen

Abordamos el desafío de detectar voz sintetizada bajo cambios de distribución —que surgen de métodos de síntesis, hablantes, idiomas o condiciones de audio no vistos— en relación con los datos de entrenamiento. Los métodos de aprendizaje con pocos ejemplos (few-shot) son una forma prometedora de abordar estos cambios de distribución al adaptarse rápidamente basándose en unos pocos ejemplos dentro de la distribución. Proponemos una red prototípica con autoatención para permitir una adaptación few-shot más robusta. Para evaluar nuestro enfoque, comparamos sistemáticamente el rendimiento de detectores tradicionales zero-shot con los detectores few-shot propuestos, controlando cuidadosamente las condiciones de entrenamiento para introducir cambios de distribución durante la evaluación. En condiciones donde los cambios de distribución afectan el rendimiento zero-shot, nuestra técnica de adaptación few-shot propuesta puede adaptarse rápidamente utilizando tan solo 10 ejemplos dentro de la distribución —logrando una reducción relativa del EER de hasta un 32% en deepfakes en idioma japonés y un 20% en el conjunto de datos ASVspoof 2021 Deepfake.

English

We address the challenge of detecting synthesized speech under distribution shifts -- arising from unseen synthesis methods, speakers, languages, or audio conditions -- relative to the training data. Few-shot learning methods are a promising way to tackle distribution shifts by rapidly adapting on the basis of a few in-distribution samples. We propose a self-attentive prototypical network to enable more robust few-shot adaptation. To evaluate our approach, we systematically compare the performance of traditional zero-shot detectors and the proposed few-shot detectors, carefully controlling training conditions to introduce distribution shifts at evaluation time. In conditions where distribution shifts hamper the zero-shot performance, our proposed few-shot adaptation technique can quickly adapt using as few as 10 in-distribution samples -- achieving upto 32% relative EER reduction on deepfakes in Japanese language and 20% relative reduction on ASVspoof 2021 Deepfake dataset.

Adaptación rápida a nuevos ataques de suplantación de voz: Detección de habla sintetizada con pocos ejemplos bajo cambios de distribución

Rapidly Adapting to New Voice Spoofing: Few-Shot Detection of Synthesized Speech Under Distribution Shifts

Resumen

Support