"Não é uma representação de mim": Examinando o Viés de Sotaque e a Exclusão Digital em Serviços de Voz Sintética com IA
"It's not a representation of me": Examining Accent Bias and Digital Exclusion in Synthetic AI Voice Services
April 12, 2025
Autores: Shira Michel, Sufi Kaur, Sarah Elizabeth Gillespie, Jeffrey Gleason, Christo Wilson, Avijit Ghosh
cs.AI
Resumo
Os recentes avanços na geração de fala por inteligência artificial (IA) e nas tecnologias de clonagem de voz têm produzido fala naturalista e replicação precisa de voz, mas sua influência nos sistemas sociotécnicos em diversos sotaques e traços linguísticos ainda não é totalmente compreendida. Este estudo avalia dois serviços de voz sintética por IA (Speechify e ElevenLabs) por meio de uma abordagem de métodos mistos, utilizando pesquisas e entrevistas para avaliar o desempenho técnico e explorar como as experiências vividas pelos usuários influenciam suas percepções sobre variações de sotaque nessas tecnologias de fala. Nossos resultados revelam disparidades de desempenho técnico em cinco sotaques regionais da língua inglesa e demonstram como as atuais tecnologias de geração de fala podem inadvertidamente reforçar privilégios linguísticos e discriminação baseada em sotaque, potencialmente criando novas formas de exclusão digital. No geral, nosso estudo destaca a necessidade de design inclusivo e regulamentação, fornecendo insights acionáveis para desenvolvedores, formuladores de políticas e organizações, a fim de garantir tecnologias de fala por IA equitativas e socialmente responsáveis.
English
Recent advances in artificial intelligence (AI) speech generation and voice
cloning technologies have produced naturalistic speech and accurate voice
replication, yet their influence on sociotechnical systems across diverse
accents and linguistic traits is not fully understood. This study evaluates two
synthetic AI voice services (Speechify and ElevenLabs) through a mixed methods
approach using surveys and interviews to assess technical performance and
uncover how users' lived experiences influence their perceptions of accent
variations in these speech technologies. Our findings reveal technical
performance disparities across five regional, English-language accents and
demonstrate how current speech generation technologies may inadvertently
reinforce linguistic privilege and accent-based discrimination, potentially
creating new forms of digital exclusion. Overall, our study highlights the need
for inclusive design and regulation by providing actionable insights for
developers, policymakers, and organizations to ensure equitable and socially
responsible AI speech technologies.Summary
AI-Generated Summary