Les grands modèles de langage discriminent les locuteurs de dialectes allemands.
Large Language Models Discriminate Against Speakers of German Dialects
September 17, 2025
papers.authors: Minh Duc Bui, Carolin Holtermann, Valentin Hofmann, Anne Lauscher, Katharina von der Wense
cs.AI
papers.abstract
Les dialectes constituent une composante significative de la culture humaine et se retrouvent dans toutes les régions du monde. En Allemagne, plus de 40 % de la population parle un dialecte régional (Adler et Hansen, 2022). Cependant, malgré leur importance culturelle, les individus parlant des dialectes font souvent face à des stéréotypes sociétaux négatifs. Nous examinons si ces stéréotypes se reflètent dans les grands modèles de langage (LLMs). Nous nous appuyons sur la littérature sociolinguistique concernant la perception des dialectes pour analyser les traits communément associés aux locuteurs de dialectes. Sur la base de ces traits, nous évaluons le biais de dénomination des dialectes et le biais d'utilisation des dialectes exprimés par les LLMs dans deux tâches : une tâche d'association et une tâche de décision. Pour évaluer le biais d'utilisation des dialectes d'un modèle, nous construisons un corpus d'évaluation inédit qui associe des phrases provenant de sept dialectes régionaux allemands (par exemple, l'alémanique et le bavarois) à leurs équivalents en allemand standard. Nous constatons que : (1) dans la tâche d'association, tous les LLMs évalués présentent un biais significatif de dénomination et d'utilisation des dialectes contre les locuteurs de dialectes allemands, reflété par des associations d'adjectifs négatifs ; (2) tous les modèles reproduisent ces biais de dénomination et d'utilisation des dialectes dans leur prise de décision ; et (3) contrairement aux travaux antérieurs montrant un biais minimal avec des mentions démographiques explicites, nous constatons que l'étiquetage explicite des caractéristiques démographiques linguistiques—les locuteurs de dialectes allemands—amplifie le biais davantage que des indices implicites comme l'utilisation des dialectes.
English
Dialects represent a significant component of human culture and are found
across all regions of the world. In Germany, more than 40% of the population
speaks a regional dialect (Adler and Hansen, 2022). However, despite cultural
importance, individuals speaking dialects often face negative societal
stereotypes. We examine whether such stereotypes are mirrored by large language
models (LLMs). We draw on the sociolinguistic literature on dialect perception
to analyze traits commonly associated with dialect speakers. Based on these
traits, we assess the dialect naming bias and dialect usage bias expressed by
LLMs in two tasks: an association task and a decision task. To assess a model's
dialect usage bias, we construct a novel evaluation corpus that pairs sentences
from seven regional German dialects (e.g., Alemannic and Bavarian) with their
standard German counterparts. We find that: (1) in the association task, all
evaluated LLMs exhibit significant dialect naming and dialect usage bias
against German dialect speakers, reflected in negative adjective associations;
(2) all models reproduce these dialect naming and dialect usage biases in their
decision making; and (3) contrary to prior work showing minimal bias with
explicit demographic mentions, we find that explicitly labeling linguistic
demographics--German dialect speakers--amplifies bias more than implicit cues
like dialect usage.