ChatPaper.aiChatPaper

Adattamento rapido a nuove forme di spoofing vocale: rilevamento few-shot di sintesi vocale in presenza di cambiamenti distributivi

Rapidly Adapting to New Voice Spoofing: Few-Shot Detection of Synthesized Speech Under Distribution Shifts

August 18, 2025
Autori: Ashi Garg, Zexin Cai, Henry Li Xinyuan, Leibny Paola García-Perera, Kevin Duh, Sanjeev Khudanpur, Matthew Wiesner, Nicholas Andrews
cs.AI

Abstract

Affrontiamo la sfida di rilevare il parlato sintetizzato in presenza di cambiamenti di distribuzione – derivanti da metodi di sintesi, parlanti, lingue o condizioni audio non visti – rispetto ai dati di addestramento. I metodi di apprendimento few-shot rappresentano un approccio promettente per affrontare i cambiamenti di distribuzione, adattandosi rapidamente sulla base di pochi campioni in-distribuzione. Proponiamo una rete prototipale dotata di self-attention per consentire un adattamento few-shot più robusto. Per valutare il nostro approccio, confrontiamo sistematicamente le prestazioni dei tradizionali rilevatori zero-shot con i rilevatori few-shot proposti, controllando attentamente le condizioni di addestramento per introdurre cambiamenti di distribuzione al momento della valutazione. In condizioni in cui i cambiamenti di distribuzione compromettono le prestazioni zero-shot, la nostra tecnica di adattamento few-shot proposta può adattarsi rapidamente utilizzando anche solo 10 campioni in-distribuzione – ottenendo una riduzione relativa dell'EER fino al 32% sui deepfake in lingua giapponese e una riduzione relativa del 20% sul dataset ASVspoof 2021 Deepfake.
English
We address the challenge of detecting synthesized speech under distribution shifts -- arising from unseen synthesis methods, speakers, languages, or audio conditions -- relative to the training data. Few-shot learning methods are a promising way to tackle distribution shifts by rapidly adapting on the basis of a few in-distribution samples. We propose a self-attentive prototypical network to enable more robust few-shot adaptation. To evaluate our approach, we systematically compare the performance of traditional zero-shot detectors and the proposed few-shot detectors, carefully controlling training conditions to introduce distribution shifts at evaluation time. In conditions where distribution shifts hamper the zero-shot performance, our proposed few-shot adaptation technique can quickly adapt using as few as 10 in-distribution samples -- achieving upto 32% relative EER reduction on deepfakes in Japanese language and 20% relative reduction on ASVspoof 2021 Deepfake dataset.
PDF12August 20, 2025