"No es una representación de mí": Examinando el sesgo de acento y la exclusión digital en los servicios de voz sintética con IA
"It's not a representation of me": Examining Accent Bias and Digital Exclusion in Synthetic AI Voice Services
April 12, 2025
Autores: Shira Michel, Sufi Kaur, Sarah Elizabeth Gillespie, Jeffrey Gleason, Christo Wilson, Avijit Ghosh
cs.AI
Resumen
Los recientes avances en inteligencia artificial (IA) en la generación de voz y las tecnologías de clonación vocal han producido un habla naturalista y una replicación precisa de la voz, aunque su influencia en los sistemas sociotécnicos a través de diversos acentos y rasgos lingüísticos no se comprende completamente. Este estudio evalúa dos servicios de voz sintética basados en IA (Speechify y ElevenLabs) mediante un enfoque de métodos mixtos que utiliza encuestas y entrevistas para evaluar el rendimiento técnico y descubrir cómo las experiencias vividas por los usuarios influyen en sus percepciones sobre las variaciones de acento en estas tecnologías de voz. Nuestros hallazgos revelan disparidades en el rendimiento técnico en cinco acentos regionales del idioma inglés y demuestran cómo las tecnologías actuales de generación de voz pueden reforzar inadvertidamente los privilegios lingüísticos y la discriminación basada en el acento, lo que podría crear nuevas formas de exclusión digital. En general, nuestro estudio destaca la necesidad de un diseño y regulación inclusivos al proporcionar insights prácticos para desarrolladores, legisladores y organizaciones, con el fin de garantizar tecnologías de voz basadas en IA equitativas y socialmente responsables.
English
Recent advances in artificial intelligence (AI) speech generation and voice
cloning technologies have produced naturalistic speech and accurate voice
replication, yet their influence on sociotechnical systems across diverse
accents and linguistic traits is not fully understood. This study evaluates two
synthetic AI voice services (Speechify and ElevenLabs) through a mixed methods
approach using surveys and interviews to assess technical performance and
uncover how users' lived experiences influence their perceptions of accent
variations in these speech technologies. Our findings reveal technical
performance disparities across five regional, English-language accents and
demonstrate how current speech generation technologies may inadvertently
reinforce linguistic privilege and accent-based discrimination, potentially
creating new forms of digital exclusion. Overall, our study highlights the need
for inclusive design and regulation by providing actionable insights for
developers, policymakers, and organizations to ensure equitable and socially
responsible AI speech technologies.Summary
AI-Generated Summary