ChatPaper.aiChatPaper

"Это не мое отражение": Исследование акцентной предвзятости и цифровой исключенности в синтетических голосовых сервисах на основе ИИ

"It's not a representation of me": Examining Accent Bias and Digital Exclusion in Synthetic AI Voice Services

April 12, 2025
Авторы: Shira Michel, Sufi Kaur, Sarah Elizabeth Gillespie, Jeffrey Gleason, Christo Wilson, Avijit Ghosh
cs.AI

Аннотация

Последние достижения в области искусственного интеллекта (ИИ) в генерации речи и технологиях клонирования голоса позволили создавать естественно звучащую речь и точное воспроизведение голоса. Однако их влияние на социотехнические системы в контексте различных акцентов и лингвистических особенностей до конца не изучено. В данном исследовании оцениваются два синтетических сервиса генерации голоса на основе ИИ (Speechify и ElevenLabs) с использованием смешанного метода, включающего опросы и интервью, чтобы оценить техническую производительность и выяснить, как личный опыт пользователей влияет на их восприятие акцентных вариаций в этих речевых технологиях. Наши результаты выявили различия в технической производительности для пяти региональных акцентов английского языка и показали, как современные технологии генерации речи могут непреднамеренно усиливать лингвистические привилегии и дискриминацию на основе акцента, потенциально создавая новые формы цифрового исключения. В целом, наше исследование подчеркивает необходимость инклюзивного дизайна и регулирования, предоставляя практические рекомендации для разработчиков, политиков и организаций, чтобы обеспечить справедливые и социально ответственные технологии ИИ в области речи.
English
Recent advances in artificial intelligence (AI) speech generation and voice cloning technologies have produced naturalistic speech and accurate voice replication, yet their influence on sociotechnical systems across diverse accents and linguistic traits is not fully understood. This study evaluates two synthetic AI voice services (Speechify and ElevenLabs) through a mixed methods approach using surveys and interviews to assess technical performance and uncover how users' lived experiences influence their perceptions of accent variations in these speech technologies. Our findings reveal technical performance disparities across five regional, English-language accents and demonstrate how current speech generation technologies may inadvertently reinforce linguistic privilege and accent-based discrimination, potentially creating new forms of digital exclusion. Overall, our study highlights the need for inclusive design and regulation by providing actionable insights for developers, policymakers, and organizations to ensure equitable and socially responsible AI speech technologies.
PDF42April 17, 2025