新たな音声スプーフィングへの迅速な適応:分布シフト下における合成音声のFew-Shot検出
Rapidly Adapting to New Voice Spoofing: Few-Shot Detection of Synthesized Speech Under Distribution Shifts
August 18, 2025
著者: Ashi Garg, Zexin Cai, Henry Li Xinyuan, Leibny Paola García-Perera, Kevin Duh, Sanjeev Khudanpur, Matthew Wiesner, Nicholas Andrews
cs.AI
要旨
我々は、訓練データに対して見えない合成手法、話者、言語、または音声条件に起因する分布シフト下での合成音声検出の課題に取り組む。数ショット学習手法は、少数の分布内サンプルに基づいて迅速に適応することで、分布シフトに対処する有望な方法である。我々は、よりロバストな数ショット適応を可能にするために、自己注意型プロトタイプネットワークを提案する。提案手法を評価するために、従来のゼロショット検出器と提案する数ショット検出器の性能を体系的に比較し、評価時に分布シフトを導入するために訓練条件を慎重に制御する。分布シフトがゼロショット性能を妨げる条件下では、提案する数ショット適応技術は、わずか10個の分布内サンプルを使用して迅速に適応することができ、日本語のディープフェイクでは最大32%の相対EER削減、ASVspoof 2021 Deepfakeデータセットでは20%の相対削減を達成する。
English
We address the challenge of detecting synthesized speech under distribution
shifts -- arising from unseen synthesis methods, speakers, languages, or audio
conditions -- relative to the training data. Few-shot learning methods are a
promising way to tackle distribution shifts by rapidly adapting on the basis of
a few in-distribution samples. We propose a self-attentive prototypical network
to enable more robust few-shot adaptation. To evaluate our approach, we
systematically compare the performance of traditional zero-shot detectors and
the proposed few-shot detectors, carefully controlling training conditions to
introduce distribution shifts at evaluation time. In conditions where
distribution shifts hamper the zero-shot performance, our proposed few-shot
adaptation technique can quickly adapt using as few as 10 in-distribution
samples -- achieving upto 32% relative EER reduction on deepfakes in Japanese
language and 20% relative reduction on ASVspoof 2021 Deepfake dataset.