SNAP: Anulação do Locutor para Projeção de Artefatos na Detecção de Deepfakes de Voz

Resumo

Os recentes avanços nas tecnologias de conversão de texto em voz permitem gerar fala sintética de alta fidelidade, quase indistinguível de vozes humanas reais. Embora estudos recentes demonstrem a eficácia de codificadores de fala baseados em aprendizagem auto supervisionada para detecção de deepfakes, estes modelos têm dificuldade em generalizar para locutores não vistos. Nossa análise quantitativa sugere que essas representações do codificador são substancialmente influenciadas por informações do locutor, fazendo com que os detectores explorem correlações específicas do falante em vez de pistas relacionadas a artefatos. Denominamos este fenômeno de *entrelaçamento do locutor*. Para mitigar esta dependência, introduzimos o SNAP, uma estrutura de anulação do locutor. Estimamos um subespaço do locutor e aplicamos uma projeção ortogonal para suprimir componentes dependentes do falante, isolando os artefatos de síntese nas características residuais. Ao reduzir o entrelaçamento do locutor, o SNAP incentiva os detectores a concentrarem-se em padrões relacionados a artefatos, resultando num desempenho de ponta.

English

Recent advancements in text-to-speech technologies enable generating high-fidelity synthetic speech nearly indistinguishable from real human voices. While recent studies show the efficacy of self-supervised learning-based speech encoders for deepfake detection, these models struggle to generalize across unseen speakers. Our quantitative analysis suggests these encoder representations are substantially influenced by speaker information, causing detectors to exploit speaker-specific correlations rather than artifact-related cues. We call this phenomenon speaker entanglement. To mitigate this reliance, we introduce SNAP, a speaker-nulling framework. We estimate a speaker subspace and apply orthogonal projection to suppress speaker-dependent components, isolating synthesis artifacts within the residual features. By reducing speaker entanglement, SNAP encourages detectors to focus on artifact-related patterns, leading to state-of-the-art performance.

SNAP: Anulação do Locutor para Projeção de Artefatos na Detecção de Deepfakes de Voz

SNAP: Speaker Nulling for Artifact Projection in Speech Deepfake Detection

Resumo

Support