Быстрая адаптация к новым методам подмены голоса: обнаружение синтезированной речи при сдвигах распределения с использованием малого числа примеров
Rapidly Adapting to New Voice Spoofing: Few-Shot Detection of Synthesized Speech Under Distribution Shifts
August 18, 2025
Авторы: Ashi Garg, Zexin Cai, Henry Li Xinyuan, Leibny Paola García-Perera, Kevin Duh, Sanjeev Khudanpur, Matthew Wiesner, Nicholas Andrews
cs.AI
Аннотация
Мы рассматриваем задачу обнаружения синтезированной речи в условиях сдвигов распределения — возникающих из-за неизвестных методов синтеза, дикторов, языков или аудиоусловий — по сравнению с обучающими данными. Методы обучения с малым количеством примеров (few-shot learning) представляют собой перспективный подход для решения проблемы сдвигов распределения за счет быстрой адаптации на основе нескольких примеров из целевого распределения. Мы предлагаем использовать сеть с самовниманием (self-attentive prototypical network) для обеспечения более устойчивой адаптации с малым количеством примеров. Для оценки нашего подхода мы систематически сравниваем производительность традиционных детекторов, работающих в режиме нулевого обучения (zero-shot), и предложенных детекторов с малым количеством примеров, тщательно контролируя условия обучения, чтобы ввести сдвиги распределения на этапе оценки. В условиях, когда сдвиги распределения ухудшают производительность zero-shot детекторов, наш метод адаптации с малым количеством примеров позволяет быстро адаптироваться, используя всего 10 примеров из целевого распределения, — достигая снижения относительной EER на 32% для глубоких подделок (deepfakes) на японском языке и на 20% для набора данных ASVspoof 2021 Deepfake.
English
We address the challenge of detecting synthesized speech under distribution
shifts -- arising from unseen synthesis methods, speakers, languages, or audio
conditions -- relative to the training data. Few-shot learning methods are a
promising way to tackle distribution shifts by rapidly adapting on the basis of
a few in-distribution samples. We propose a self-attentive prototypical network
to enable more robust few-shot adaptation. To evaluate our approach, we
systematically compare the performance of traditional zero-shot detectors and
the proposed few-shot detectors, carefully controlling training conditions to
introduce distribution shifts at evaluation time. In conditions where
distribution shifts hamper the zero-shot performance, our proposed few-shot
adaptation technique can quickly adapt using as few as 10 in-distribution
samples -- achieving upto 32% relative EER reduction on deepfakes in Japanese
language and 20% relative reduction on ASVspoof 2021 Deepfake dataset.