ChatPaper.aiChatPaper

Große Sprachmodelle diskriminieren Sprecher deutscher Dialekte.

Large Language Models Discriminate Against Speakers of German Dialects

September 17, 2025
papers.authors: Minh Duc Bui, Carolin Holtermann, Valentin Hofmann, Anne Lauscher, Katharina von der Wense
cs.AI

papers.abstract

Dialekte stellen einen bedeutenden Bestandteil der menschlichen Kultur dar und sind in allen Regionen der Welt verbreitet. In Deutschland spricht mehr als 40 % der Bevölkerung einen regionalen Dialekt (Adler und Hansen, 2022). Trotz ihrer kulturellen Bedeutung sehen sich Personen, die Dialekte sprechen, oft mit negativen gesellschaftlichen Stereotypen konfrontiert. Wir untersuchen, ob sich solche Stereotype in großen Sprachmodellen (Large Language Models, LLMs) widerspiegeln. Wir stützen uns auf die soziolinguistische Literatur zur Wahrnehmung von Dialekten, um Eigenschaften zu analysieren, die häufig mit Dialektsprechern assoziiert werden. Basierend auf diesen Eigenschaften bewerten wir den Dialekt-Namensbias und den Dialekt-Nutzungsbias, den LLMs in zwei Aufgaben zeigen: einer Assoziationsaufgabe und einer Entscheidungsaufgabe. Um den Dialekt-Nutzungsbias eines Modells zu bewerten, erstellen wir ein neuartiges Evaluationskorpus, das Sätze aus sieben regionalen deutschen Dialekten (z. B. Alemannisch und Bairisch) mit ihren standarddeutschen Entsprechungen kombiniert. Wir stellen fest, dass: (1) in der Assoziationsaufgabe alle untersuchten LLMs einen signifikanten Dialekt-Namensbias und Dialekt-Nutzungsbias gegenüber deutschen Dialektsprechern aufweisen, der sich in negativen Adjektivassoziationen widerspiegelt; (2) alle Modelle reproduzieren diese Dialekt-Namens- und Dialekt-Nutzungsbiases in ihren Entscheidungen; und (3) im Gegensatz zu früheren Arbeiten, die einen minimalen Bias bei expliziten demografischen Erwähnungen zeigen, stellen wir fest, dass die explizite Kennzeichnung linguistischer Demografien – deutsche Dialektsprecher – den Bias stärker verstärkt als implizite Hinweise wie die Nutzung von Dialekten.
English
Dialects represent a significant component of human culture and are found across all regions of the world. In Germany, more than 40% of the population speaks a regional dialect (Adler and Hansen, 2022). However, despite cultural importance, individuals speaking dialects often face negative societal stereotypes. We examine whether such stereotypes are mirrored by large language models (LLMs). We draw on the sociolinguistic literature on dialect perception to analyze traits commonly associated with dialect speakers. Based on these traits, we assess the dialect naming bias and dialect usage bias expressed by LLMs in two tasks: an association task and a decision task. To assess a model's dialect usage bias, we construct a novel evaluation corpus that pairs sentences from seven regional German dialects (e.g., Alemannic and Bavarian) with their standard German counterparts. We find that: (1) in the association task, all evaluated LLMs exhibit significant dialect naming and dialect usage bias against German dialect speakers, reflected in negative adjective associations; (2) all models reproduce these dialect naming and dialect usage biases in their decision making; and (3) contrary to prior work showing minimal bias with explicit demographic mentions, we find that explicitly labeling linguistic demographics--German dialect speakers--amplifies bias more than implicit cues like dialect usage.
PDF72September 24, 2025