Snel aanpassen aan nieuwe stemmanipulatie: Few-Shot detectie van gesynthetiseerde spraak onder distributieverschuivingen
Rapidly Adapting to New Voice Spoofing: Few-Shot Detection of Synthesized Speech Under Distribution Shifts
August 18, 2025
Auteurs: Ashi Garg, Zexin Cai, Henry Li Xinyuan, Leibny Paola García-Perera, Kevin Duh, Sanjeev Khudanpur, Matthew Wiesner, Nicholas Andrews
cs.AI
Samenvatting
We pakken de uitdaging aan om gesynthetiseerde spraak te detecteren onder distributieverschuivingen -- veroorzaakt door onbekende synthesemethoden, sprekers, talen of audiocondities -- ten opzichte van de trainingsdata. Few-shot learning-methoden zijn een veelbelovende manier om distributieverschuivingen aan te pakken door snel aan te passen op basis van een paar in-distributie voorbeelden. We stellen een zelf-attentief prototypisch netwerk voor om een robuustere few-shot aanpassing mogelijk te maken. Om onze aanpak te evalueren, vergelijken we systematisch de prestaties van traditionele zero-shot detectoren en de voorgestelde few-shot detectoren, waarbij we de trainingscondities zorgvuldig controleren om distributieverschuivingen tijdens de evaluatie te introduceren. In omstandigheden waar distributieverschuivingen de zero-shot prestaties belemmeren, kan onze voorgestelde few-shot aanpassingstechniek snel aanpassen met slechts 10 in-distributie voorbeelden -- wat resulteert in een relatieve EER-reductie van tot 32% op deepfakes in de Japanse taal en een relatieve reductie van 20% op het ASVspoof 2021 Deepfake-dataset.
English
We address the challenge of detecting synthesized speech under distribution
shifts -- arising from unseen synthesis methods, speakers, languages, or audio
conditions -- relative to the training data. Few-shot learning methods are a
promising way to tackle distribution shifts by rapidly adapting on the basis of
a few in-distribution samples. We propose a self-attentive prototypical network
to enable more robust few-shot adaptation. To evaluate our approach, we
systematically compare the performance of traditional zero-shot detectors and
the proposed few-shot detectors, carefully controlling training conditions to
introduce distribution shifts at evaluation time. In conditions where
distribution shifts hamper the zero-shot performance, our proposed few-shot
adaptation technique can quickly adapt using as few as 10 in-distribution
samples -- achieving upto 32% relative EER reduction on deepfakes in Japanese
language and 20% relative reduction on ASVspoof 2021 Deepfake dataset.