"Это не мое отражение": Исследование акцентной предвзятости и цифровой исключенности в синтетических голосовых сервисах на основе ИИ
"It's not a representation of me": Examining Accent Bias and Digital Exclusion in Synthetic AI Voice Services
April 12, 2025
Авторы: Shira Michel, Sufi Kaur, Sarah Elizabeth Gillespie, Jeffrey Gleason, Christo Wilson, Avijit Ghosh
cs.AI
Аннотация
Последние достижения в области искусственного интеллекта (ИИ) в генерации речи и технологиях клонирования голоса позволили создавать естественно звучащую речь и точное воспроизведение голоса. Однако их влияние на социотехнические системы в контексте различных акцентов и лингвистических особенностей до конца не изучено. В данном исследовании оцениваются два синтетических сервиса генерации голоса на основе ИИ (Speechify и ElevenLabs) с использованием смешанного метода, включающего опросы и интервью, чтобы оценить техническую производительность и выяснить, как личный опыт пользователей влияет на их восприятие акцентных вариаций в этих речевых технологиях. Наши результаты выявили различия в технической производительности для пяти региональных акцентов английского языка и показали, как современные технологии генерации речи могут непреднамеренно усиливать лингвистические привилегии и дискриминацию на основе акцента, потенциально создавая новые формы цифрового исключения. В целом, наше исследование подчеркивает необходимость инклюзивного дизайна и регулирования, предоставляя практические рекомендации для разработчиков, политиков и организаций, чтобы обеспечить справедливые и социально ответственные технологии ИИ в области речи.
English
Recent advances in artificial intelligence (AI) speech generation and voice
cloning technologies have produced naturalistic speech and accurate voice
replication, yet their influence on sociotechnical systems across diverse
accents and linguistic traits is not fully understood. This study evaluates two
synthetic AI voice services (Speechify and ElevenLabs) through a mixed methods
approach using surveys and interviews to assess technical performance and
uncover how users' lived experiences influence their perceptions of accent
variations in these speech technologies. Our findings reveal technical
performance disparities across five regional, English-language accents and
demonstrate how current speech generation technologies may inadvertently
reinforce linguistic privilege and accent-based discrimination, potentially
creating new forms of digital exclusion. Overall, our study highlights the need
for inclusive design and regulation by providing actionable insights for
developers, policymakers, and organizations to ensure equitable and socially
responsible AI speech technologies.