Schnelle Anpassung an neue Voice-Spoofing-Angriffe: Erkennung von synthetischer Sprache bei Verteilungsverschiebungen mit wenigen Beispielen
Rapidly Adapting to New Voice Spoofing: Few-Shot Detection of Synthesized Speech Under Distribution Shifts
August 18, 2025
papers.authors: Ashi Garg, Zexin Cai, Henry Li Xinyuan, Leibny Paola García-Perera, Kevin Duh, Sanjeev Khudanpur, Matthew Wiesner, Nicholas Andrews
cs.AI
papers.abstract
Wir widmen uns der Herausforderung, synthetisierte Sprache unter Verteilungsverschiebungen zu erkennen – die durch ungesehene Synthesemethoden, Sprecher, Sprachen oder Audio-Bedingungen entstehen – im Vergleich zu den Trainingsdaten. Few-Shot-Learning-Methoden sind ein vielversprechender Ansatz, um Verteilungsverschiebungen zu bewältigen, indem sie sich schnell auf der Grundlage weniger In-Distribution-Proben anpassen. Wir schlagen ein selbstaufmerksames prototypisches Netzwerk vor, um eine robustere Few-Shot-Anpassung zu ermöglichen. Um unseren Ansatz zu bewerten, vergleichen wir systematisch die Leistung traditioneller Zero-Shot-Detektoren und der vorgeschlagenen Few-Shot-Detektoren, wobei wir die Trainingsbedingungen sorgfältig kontrollieren, um Verteilungsverschiebungen zum Zeitpunkt der Evaluation einzuführen. In Situationen, in denen Verteilungsverschiebungen die Zero-Shot-Leistung beeinträchtigen, kann unsere vorgeschlagene Few-Shot-Anpassungstechnik sich schnell anpassen, indem sie nur 10 In-Distribution-Proben verwendet – und erreicht dabei eine relative EER-Reduktion von bis zu 32 % bei Deepfakes in der japanischen Sprache und eine relative Reduktion von 20 % auf dem ASVspoof 2021 Deepfake-Datensatz.
English
We address the challenge of detecting synthesized speech under distribution
shifts -- arising from unseen synthesis methods, speakers, languages, or audio
conditions -- relative to the training data. Few-shot learning methods are a
promising way to tackle distribution shifts by rapidly adapting on the basis of
a few in-distribution samples. We propose a self-attentive prototypical network
to enable more robust few-shot adaptation. To evaluate our approach, we
systematically compare the performance of traditional zero-shot detectors and
the proposed few-shot detectors, carefully controlling training conditions to
introduce distribution shifts at evaluation time. In conditions where
distribution shifts hamper the zero-shot performance, our proposed few-shot
adaptation technique can quickly adapt using as few as 10 in-distribution
samples -- achieving upto 32% relative EER reduction on deepfakes in Japanese
language and 20% relative reduction on ASVspoof 2021 Deepfake dataset.