„Es ist keine Repräsentation von mir“: Untersuchung von Akzent-Bias und digitaler Exklusion in synthetischen KI-Sprachdiensten
"It's not a representation of me": Examining Accent Bias and Digital Exclusion in Synthetic AI Voice Services
April 12, 2025
Autoren: Shira Michel, Sufi Kaur, Sarah Elizabeth Gillespie, Jeffrey Gleason, Christo Wilson, Avijit Ghosh
cs.AI
Zusammenfassung
Jüngste Fortschritte in der künstlichen Intelligenz (KI) bei der Sprachgenerierung und Stimmklontechnologie haben naturalistische Sprache und präzise Stimmreplikation ermöglicht, doch ihr Einfluss auf soziotechnische Systeme über verschiedene Akzente und linguistische Merkmale hinweg ist noch nicht vollständig verstanden. Diese Studie bewertet zwei synthetische KI-Stimmservices (Speechify und ElevenLabs) mithilfe eines Mixed-Methods-Ansatzes, der Umfragen und Interviews kombiniert, um die technische Leistung zu bewerten und zu untersuchen, wie die persönlichen Erfahrungen der Nutzer ihre Wahrnehmung von Akzentvariationen in diesen Sprachtechnologien beeinflussen. Unsere Ergebnisse zeigen technische Leistungsunterschiede bei fünf regionalen englischsprachigen Akzenten und verdeutlichen, wie aktuelle Sprachgenerierungstechnologien unbeabsichtigt linguistische Privilegien und akzentbasierte Diskriminierung verstärken könnten, was potenziell neue Formen digitaler Ausgrenzung schafft. Insgesamt unterstreicht unsere Studie die Notwendigkeit eines inklusiven Designs und von Regulierungen, indem sie umsetzbare Erkenntnisse für Entwickler, politische Entscheidungsträger und Organisationen liefert, um gerechte und sozial verantwortungsvolle KI-Sprachtechnologien sicherzustellen.
English
Recent advances in artificial intelligence (AI) speech generation and voice
cloning technologies have produced naturalistic speech and accurate voice
replication, yet their influence on sociotechnical systems across diverse
accents and linguistic traits is not fully understood. This study evaluates two
synthetic AI voice services (Speechify and ElevenLabs) through a mixed methods
approach using surveys and interviews to assess technical performance and
uncover how users' lived experiences influence their perceptions of accent
variations in these speech technologies. Our findings reveal technical
performance disparities across five regional, English-language accents and
demonstrate how current speech generation technologies may inadvertently
reinforce linguistic privilege and accent-based discrimination, potentially
creating new forms of digital exclusion. Overall, our study highlights the need
for inclusive design and regulation by providing actionable insights for
developers, policymakers, and organizations to ensure equitable and socially
responsible AI speech technologies.Summary
AI-Generated Summary