Adaptación rápida a nuevos ataques de suplantación de voz: Detección de habla sintetizada con pocos ejemplos bajo cambios de distribución
Rapidly Adapting to New Voice Spoofing: Few-Shot Detection of Synthesized Speech Under Distribution Shifts
August 18, 2025
Autores: Ashi Garg, Zexin Cai, Henry Li Xinyuan, Leibny Paola García-Perera, Kevin Duh, Sanjeev Khudanpur, Matthew Wiesner, Nicholas Andrews
cs.AI
Resumen
Abordamos el desafío de detectar voz sintetizada bajo cambios de distribución —que surgen de métodos de síntesis, hablantes, idiomas o condiciones de audio no vistos— en relación con los datos de entrenamiento. Los métodos de aprendizaje con pocos ejemplos (few-shot) son una forma prometedora de abordar estos cambios de distribución al adaptarse rápidamente basándose en unos pocos ejemplos dentro de la distribución. Proponemos una red prototípica con autoatención para permitir una adaptación few-shot más robusta. Para evaluar nuestro enfoque, comparamos sistemáticamente el rendimiento de detectores tradicionales zero-shot con los detectores few-shot propuestos, controlando cuidadosamente las condiciones de entrenamiento para introducir cambios de distribución durante la evaluación. En condiciones donde los cambios de distribución afectan el rendimiento zero-shot, nuestra técnica de adaptación few-shot propuesta puede adaptarse rápidamente utilizando tan solo 10 ejemplos dentro de la distribución —logrando una reducción relativa del EER de hasta un 32% en deepfakes en idioma japonés y un 20% en el conjunto de datos ASVspoof 2021 Deepfake.
English
We address the challenge of detecting synthesized speech under distribution
shifts -- arising from unseen synthesis methods, speakers, languages, or audio
conditions -- relative to the training data. Few-shot learning methods are a
promising way to tackle distribution shifts by rapidly adapting on the basis of
a few in-distribution samples. We propose a self-attentive prototypical network
to enable more robust few-shot adaptation. To evaluate our approach, we
systematically compare the performance of traditional zero-shot detectors and
the proposed few-shot detectors, carefully controlling training conditions to
introduce distribution shifts at evaluation time. In conditions where
distribution shifts hamper the zero-shot performance, our proposed few-shot
adaptation technique can quickly adapt using as few as 10 in-distribution
samples -- achieving upto 32% relative EER reduction on deepfakes in Japanese
language and 20% relative reduction on ASVspoof 2021 Deepfake dataset.