"Ce n'est pas une représentation de moi" : Examen des biais d'accent et de l'exclusion numérique dans les services de synthèse vocale par IA
"It's not a representation of me": Examining Accent Bias and Digital Exclusion in Synthetic AI Voice Services
April 12, 2025
Auteurs: Shira Michel, Sufi Kaur, Sarah Elizabeth Gillespie, Jeffrey Gleason, Christo Wilson, Avijit Ghosh
cs.AI
Résumé
Les récentes avancées dans les technologies de génération de parole artificielle (IA) et de clonage vocal ont permis de produire des discours naturalistes et des réplications vocales précises, mais leur influence sur les systèmes sociotechniques à travers divers accents et traits linguistiques n'est pas encore pleinement comprise. Cette étude évalue deux services vocaux synthétiques basés sur l'IA (Speechify et ElevenLabs) à travers une approche mixte utilisant des enquêtes et des entretiens pour évaluer les performances techniques et explorer comment les expériences vécues des utilisateurs influencent leurs perceptions des variations d'accents dans ces technologies de parole. Nos résultats révèlent des disparités de performance technique à travers cinq accents régionaux de langue anglaise et montrent comment les technologies actuelles de génération de parole peuvent renforcer involontairement les privilèges linguistiques et les discriminations basées sur l'accent, créant potentiellement de nouvelles formes d'exclusion numérique. Globalement, notre étude souligne la nécessité d'une conception inclusive et d'une régulation en fournissant des insights actionnables pour les développeurs, les décideurs politiques et les organisations afin d'assurer des technologies de parole IA équitables et socialement responsables.
English
Recent advances in artificial intelligence (AI) speech generation and voice
cloning technologies have produced naturalistic speech and accurate voice
replication, yet their influence on sociotechnical systems across diverse
accents and linguistic traits is not fully understood. This study evaluates two
synthetic AI voice services (Speechify and ElevenLabs) through a mixed methods
approach using surveys and interviews to assess technical performance and
uncover how users' lived experiences influence their perceptions of accent
variations in these speech technologies. Our findings reveal technical
performance disparities across five regional, English-language accents and
demonstrate how current speech generation technologies may inadvertently
reinforce linguistic privilege and accent-based discrimination, potentially
creating new forms of digital exclusion. Overall, our study highlights the need
for inclusive design and regulation by providing actionable insights for
developers, policymakers, and organizations to ensure equitable and socially
responsible AI speech technologies.Summary
AI-Generated Summary