ChatPaper.aiChatPaper

Grote Taalmodellen Discrimineren Tegen Sprekers van Duitse Dialecten

Large Language Models Discriminate Against Speakers of German Dialects

September 17, 2025
Auteurs: Minh Duc Bui, Carolin Holtermann, Valentin Hofmann, Anne Lauscher, Katharina von der Wense
cs.AI

Samenvatting

Dialecten vormen een belangrijk onderdeel van de menselijke cultuur en komen voor in alle regio's van de wereld. In Duitsland spreekt meer dan 40% van de bevolking een regionaal dialect (Adler en Hansen, 2022). Ondanks hun culturele belang worden individuen die dialecten spreken echter vaak geconfronteerd met negatieve maatschappelijke stereotypen. Wij onderzoeken of dergelijke stereotypen worden weerspiegeld door grote taalmodelen (LLM's). We putten uit de sociolinguïstische literatuur over dialectperceptie om eigenschappen te analyseren die vaak worden geassocieerd met dialectsprekers. Op basis van deze eigenschappen beoordelen we de dialectnaamvoorkeur en dialectgebruiksvooroordelen die door LLM's worden uitgedrukt in twee taken: een associatietaak en een beslissingstaak. Om de dialectgebruiksvooroordelen van een model te beoordelen, construeren we een nieuw evaluatiecorpus dat zinnen uit zeven regionale Duitse dialecten (bijv. Alemannisch en Beiers) koppelt aan hun standaard Duitse tegenhangers. We constateren dat: (1) in de associatietaak alle geëvalueerde LLM's significante dialectnaamvoorkeur en dialectgebruiksvooroordelen vertonen tegen Duitse dialectsprekers, wat tot uiting komt in negatieve bijvoeglijke-naamwoordassociaties; (2) alle modellen deze dialectnaamvoorkeur en dialectgebruiksvooroordelen reproduceren in hun besluitvorming; en (3) in tegenstelling tot eerder onderzoek dat minimale vooroordelen toonde bij expliciete demografische vermeldingen, vinden we dat het expliciet labelen van linguïstische demografieën—Duitse dialectsprekers—de vooroordelen meer versterkt dan impliciete signalen zoals dialectgebruik.
English
Dialects represent a significant component of human culture and are found across all regions of the world. In Germany, more than 40% of the population speaks a regional dialect (Adler and Hansen, 2022). However, despite cultural importance, individuals speaking dialects often face negative societal stereotypes. We examine whether such stereotypes are mirrored by large language models (LLMs). We draw on the sociolinguistic literature on dialect perception to analyze traits commonly associated with dialect speakers. Based on these traits, we assess the dialect naming bias and dialect usage bias expressed by LLMs in two tasks: an association task and a decision task. To assess a model's dialect usage bias, we construct a novel evaluation corpus that pairs sentences from seven regional German dialects (e.g., Alemannic and Bavarian) with their standard German counterparts. We find that: (1) in the association task, all evaluated LLMs exhibit significant dialect naming and dialect usage bias against German dialect speakers, reflected in negative adjective associations; (2) all models reproduce these dialect naming and dialect usage biases in their decision making; and (3) contrary to prior work showing minimal bias with explicit demographic mentions, we find that explicitly labeling linguistic demographics--German dialect speakers--amplifies bias more than implicit cues like dialect usage.
PDF72September 24, 2025