ChatPaper.aiChatPaper

Adaptation rapide aux nouvelles falsifications vocales : Détection en few-shot de la parole synthétisée sous changements de distribution

Rapidly Adapting to New Voice Spoofing: Few-Shot Detection of Synthesized Speech Under Distribution Shifts

August 18, 2025
papers.authors: Ashi Garg, Zexin Cai, Henry Li Xinyuan, Leibny Paola García-Perera, Kevin Duh, Sanjeev Khudanpur, Matthew Wiesner, Nicholas Andrews
cs.AI

papers.abstract

Nous abordons le défi de la détection de la parole synthétisée face à des décalages de distribution - résultant de méthodes de synthèse, de locuteurs, de langues ou de conditions audio inconnus - par rapport aux données d'entraînement. Les méthodes d'apprentissage en few-shot constituent une approche prometteuse pour gérer ces décalages de distribution en s'adaptant rapidement sur la base de quelques échantillons issus de la distribution cible. Nous proposons un réseau prototypique à auto-attention pour permettre une adaptation few-shot plus robuste. Pour évaluer notre approche, nous comparons systématiquement les performances des détecteurs zero-shot traditionnels et des détecteurs few-shot proposés, en contrôlant soigneusement les conditions d'entraînement pour introduire des décalages de distribution au moment de l'évaluation. Dans les situations où les décalages de distribution affectent les performances zero-shot, notre technique d'adaptation few-shot peut s'adapter rapidement en utilisant aussi peu que 10 échantillons issus de la distribution cible - atteignant une réduction relative de l'EER allant jusqu'à 32% sur des deepfakes en langue japonaise et 20% sur le jeu de données ASVspoof 2021 Deepfake.
English
We address the challenge of detecting synthesized speech under distribution shifts -- arising from unseen synthesis methods, speakers, languages, or audio conditions -- relative to the training data. Few-shot learning methods are a promising way to tackle distribution shifts by rapidly adapting on the basis of a few in-distribution samples. We propose a self-attentive prototypical network to enable more robust few-shot adaptation. To evaluate our approach, we systematically compare the performance of traditional zero-shot detectors and the proposed few-shot detectors, carefully controlling training conditions to introduce distribution shifts at evaluation time. In conditions where distribution shifts hamper the zero-shot performance, our proposed few-shot adaptation technique can quickly adapt using as few as 10 in-distribution samples -- achieving upto 32% relative EER reduction on deepfakes in Japanese language and 20% relative reduction on ASVspoof 2021 Deepfake dataset.
PDF11August 20, 2025