"Ce n'est pas une représentation de moi" : Examen des biais d'accent et de l'exclusion numérique dans les services de synthèse vocale par IA

papers.abstract

Les récentes avancées dans les technologies de génération de parole artificielle (IA) et de clonage vocal ont permis de produire des discours naturalistes et des réplications vocales précises, mais leur influence sur les systèmes sociotechniques à travers divers accents et traits linguistiques n'est pas encore pleinement comprise. Cette étude évalue deux services vocaux synthétiques basés sur l'IA (Speechify et ElevenLabs) à travers une approche mixte utilisant des enquêtes et des entretiens pour évaluer les performances techniques et explorer comment les expériences vécues des utilisateurs influencent leurs perceptions des variations d'accents dans ces technologies de parole. Nos résultats révèlent des disparités de performance technique à travers cinq accents régionaux de langue anglaise et montrent comment les technologies actuelles de génération de parole peuvent renforcer involontairement les privilèges linguistiques et les discriminations basées sur l'accent, créant potentiellement de nouvelles formes d'exclusion numérique. Globalement, notre étude souligne la nécessité d'une conception inclusive et d'une régulation en fournissant des insights actionnables pour les développeurs, les décideurs politiques et les organisations afin d'assurer des technologies de parole IA équitables et socialement responsables.

English

Recent advances in artificial intelligence (AI) speech generation and voice cloning technologies have produced naturalistic speech and accurate voice replication, yet their influence on sociotechnical systems across diverse accents and linguistic traits is not fully understood. This study evaluates two synthetic AI voice services (Speechify and ElevenLabs) through a mixed methods approach using surveys and interviews to assess technical performance and uncover how users' lived experiences influence their perceptions of accent variations in these speech technologies. Our findings reveal technical performance disparities across five regional, English-language accents and demonstrate how current speech generation technologies may inadvertently reinforce linguistic privilege and accent-based discrimination, potentially creating new forms of digital exclusion. Overall, our study highlights the need for inclusive design and regulation by providing actionable insights for developers, policymakers, and organizations to ensure equitable and socially responsible AI speech technologies.

"Ce n'est pas une représentation de moi" : Examen des biais d'accent et de l'exclusion numérique dans les services de synthèse vocale par IA

"It's not a representation of me": Examining Accent Bias and Digital Exclusion in Synthetic AI Voice Services

papers.abstract

Support