Adaptação Rápida a Novos Métodos de Falsificação de Voz: Detecção de Fala Sintetizada com Poucos Exemplos sob Mudanças de Distribuição
Rapidly Adapting to New Voice Spoofing: Few-Shot Detection of Synthesized Speech Under Distribution Shifts
August 18, 2025
Autores: Ashi Garg, Zexin Cai, Henry Li Xinyuan, Leibny Paola García-Perera, Kevin Duh, Sanjeev Khudanpur, Matthew Wiesner, Nicholas Andrews
cs.AI
Resumo
Abordamos o desafio de detectar fala sintetizada sob mudanças de distribuição -- decorrentes de métodos de síntese, falantes, idiomas ou condições de áudio não vistos -- em relação aos dados de treinamento. Métodos de aprendizado com poucos exemplos são uma abordagem promissora para lidar com mudanças de distribuição, adaptando-se rapidamente com base em algumas amostras da distribuição original. Propomos uma rede prototípica com auto-atenção para permitir uma adaptação mais robusta com poucos exemplos. Para avaliar nossa abordagem, comparamos sistematicamente o desempenho de detectores tradicionais sem exemplos e os detectores propostos com poucos exemplos, controlando cuidadosamente as condições de treinamento para introduzir mudanças de distribuição no momento da avaliação. Em condições onde as mudanças de distribuição prejudicam o desempenho sem exemplos, nossa técnica de adaptação com poucos exemplos pode se adaptar rapidamente usando apenas 10 amostras da distribuição original -- alcançando uma redução relativa de até 32% na EER em deepfakes no idioma japonês e uma redução relativa de 20% no conjunto de dados ASVspoof 2021 Deepfake.
English
We address the challenge of detecting synthesized speech under distribution
shifts -- arising from unseen synthesis methods, speakers, languages, or audio
conditions -- relative to the training data. Few-shot learning methods are a
promising way to tackle distribution shifts by rapidly adapting on the basis of
a few in-distribution samples. We propose a self-attentive prototypical network
to enable more robust few-shot adaptation. To evaluate our approach, we
systematically compare the performance of traditional zero-shot detectors and
the proposed few-shot detectors, carefully controlling training conditions to
introduce distribution shifts at evaluation time. In conditions where
distribution shifts hamper the zero-shot performance, our proposed few-shot
adaptation technique can quickly adapt using as few as 10 in-distribution
samples -- achieving upto 32% relative EER reduction on deepfakes in Japanese
language and 20% relative reduction on ASVspoof 2021 Deepfake dataset.