SNAP : Annulation du locuteur pour la projection d'artefacts dans la détection des deepfakes audio

Résumé

Les récentes avancées dans les technologies de synthèse vocale permettent de générer une parole synthétique de haute fidélité, quasi indissociable des voix humaines réelles. Bien que des études récentes montrent l'efficacité des encodeurs vocaux basés sur l'apprentissage auto-supervisé pour la détection des deepfakes, ces modèles peinent à généraliser leur performance à des locuteurs non vus. Notre analyse quantitative suggère que ces représentations d'encodeur sont substantiellement influencées par l'information du locuteur, amenant les détecteurs à exploiter des corrélations spécifiques au locuteur plutôt que des indices liés aux artefacts. Nous nommons ce phénomène l'**intrication du locuteur**. Pour atténuer cette dépendance, nous introduisons **SNAP**, un cadre de neutralisation du locuteur. Nous estimons un sous-espace du locuteur et appliquons une projection orthogonale pour supprimer les composantes dépendantes du locuteur, isolant ainsi les artefacts de synthèse dans les caractéristiques résiduelles. En réduisant l'intrication du locuteur, SNAP encourage les détecteurs à se concentrer sur les motifs liés aux artefacts, conduisant à des performances à l'état de l'art.

English

Recent advancements in text-to-speech technologies enable generating high-fidelity synthetic speech nearly indistinguishable from real human voices. While recent studies show the efficacy of self-supervised learning-based speech encoders for deepfake detection, these models struggle to generalize across unseen speakers. Our quantitative analysis suggests these encoder representations are substantially influenced by speaker information, causing detectors to exploit speaker-specific correlations rather than artifact-related cues. We call this phenomenon speaker entanglement. To mitigate this reliance, we introduce SNAP, a speaker-nulling framework. We estimate a speaker subspace and apply orthogonal projection to suppress speaker-dependent components, isolating synthesis artifacts within the residual features. By reducing speaker entanglement, SNAP encourages detectors to focus on artifact-related patterns, leading to state-of-the-art performance.

SNAP : Annulation du locuteur pour la projection d'artefacts dans la détection des deepfakes audio

SNAP: Speaker Nulling for Artifact Projection in Speech Deepfake Detection

Résumé

Support