Schnelle Anpassung an neue Voice-Spoofing-Angriffe: Erkennung von synthetischer Sprache bei Verteilungsverschiebungen mit wenigen Beispielen

papers.abstract

Wir widmen uns der Herausforderung, synthetisierte Sprache unter Verteilungsverschiebungen zu erkennen – die durch ungesehene Synthesemethoden, Sprecher, Sprachen oder Audio-Bedingungen entstehen – im Vergleich zu den Trainingsdaten. Few-Shot-Learning-Methoden sind ein vielversprechender Ansatz, um Verteilungsverschiebungen zu bewältigen, indem sie sich schnell auf der Grundlage weniger In-Distribution-Proben anpassen. Wir schlagen ein selbstaufmerksames prototypisches Netzwerk vor, um eine robustere Few-Shot-Anpassung zu ermöglichen. Um unseren Ansatz zu bewerten, vergleichen wir systematisch die Leistung traditioneller Zero-Shot-Detektoren und der vorgeschlagenen Few-Shot-Detektoren, wobei wir die Trainingsbedingungen sorgfältig kontrollieren, um Verteilungsverschiebungen zum Zeitpunkt der Evaluation einzuführen. In Situationen, in denen Verteilungsverschiebungen die Zero-Shot-Leistung beeinträchtigen, kann unsere vorgeschlagene Few-Shot-Anpassungstechnik sich schnell anpassen, indem sie nur 10 In-Distribution-Proben verwendet – und erreicht dabei eine relative EER-Reduktion von bis zu 32 % bei Deepfakes in der japanischen Sprache und eine relative Reduktion von 20 % auf dem ASVspoof 2021 Deepfake-Datensatz.

English

We address the challenge of detecting synthesized speech under distribution shifts -- arising from unseen synthesis methods, speakers, languages, or audio conditions -- relative to the training data. Few-shot learning methods are a promising way to tackle distribution shifts by rapidly adapting on the basis of a few in-distribution samples. We propose a self-attentive prototypical network to enable more robust few-shot adaptation. To evaluate our approach, we systematically compare the performance of traditional zero-shot detectors and the proposed few-shot detectors, carefully controlling training conditions to introduce distribution shifts at evaluation time. In conditions where distribution shifts hamper the zero-shot performance, our proposed few-shot adaptation technique can quickly adapt using as few as 10 in-distribution samples -- achieving upto 32% relative EER reduction on deepfakes in Japanese language and 20% relative reduction on ASVspoof 2021 Deepfake dataset.

Schnelle Anpassung an neue Voice-Spoofing-Angriffe: Erkennung von synthetischer Sprache bei Verteilungsverschiebungen mit wenigen Beispielen

Rapidly Adapting to New Voice Spoofing: Few-Shot Detection of Synthesized Speech Under Distribution Shifts

papers.abstract

Support