I grandi modelli linguistici discriminano i parlanti di dialetti tedeschi.
Large Language Models Discriminate Against Speakers of German Dialects
September 17, 2025
Autori: Minh Duc Bui, Carolin Holtermann, Valentin Hofmann, Anne Lauscher, Katharina von der Wense
cs.AI
Abstract
I dialetti rappresentano una componente significativa della cultura umana e sono presenti in tutte le regioni del mondo. In Germania, oltre il 40% della popolazione parla un dialetto regionale (Adler e Hansen, 2022). Tuttavia, nonostante la loro importanza culturale, gli individui che parlano dialetti spesso affrontano stereotipi sociali negativi. Esaminiamo se tali stereotipi siano riflessi dai grandi modelli linguistici (LLM). Attingiamo alla letteratura sociolinguistica sulla percezione dei dialetti per analizzare i tratti comunemente associati ai parlanti dialettali. Sulla base di questi tratti, valutiamo il bias nella denominazione dei dialetti e il bias nell'uso dei dialetti espresso dagli LLM in due compiti: un compito di associazione e un compito decisionale. Per valutare il bias nell'uso dei dialetti da parte di un modello, costruiamo un nuovo corpus di valutazione che accoppia frasi di sette dialetti regionali tedeschi (ad esempio, alemanno e bavarese) con le loro controparti in tedesco standard. Scopriamo che: (1) nel compito di associazione, tutti gli LLM valutati mostrano un significativo bias nella denominazione e nell'uso dei dialetti contro i parlanti di dialetti tedeschi, riflesso in associazioni aggettivali negative; (2) tutti i modelli riproducono questi bias nella denominazione e nell'uso dei dialetti nelle loro decisioni; e (3) contrariamente a lavori precedenti che mostravano un bias minimo con menzioni esplicite di dati demografici, troviamo che etichettare esplicitamente i dati demografici linguistici—i parlanti di dialetti tedeschi—amplifica il bias più di segnali impliciti come l'uso del dialetto.
English
Dialects represent a significant component of human culture and are found
across all regions of the world. In Germany, more than 40% of the population
speaks a regional dialect (Adler and Hansen, 2022). However, despite cultural
importance, individuals speaking dialects often face negative societal
stereotypes. We examine whether such stereotypes are mirrored by large language
models (LLMs). We draw on the sociolinguistic literature on dialect perception
to analyze traits commonly associated with dialect speakers. Based on these
traits, we assess the dialect naming bias and dialect usage bias expressed by
LLMs in two tasks: an association task and a decision task. To assess a model's
dialect usage bias, we construct a novel evaluation corpus that pairs sentences
from seven regional German dialects (e.g., Alemannic and Bavarian) with their
standard German counterparts. We find that: (1) in the association task, all
evaluated LLMs exhibit significant dialect naming and dialect usage bias
against German dialect speakers, reflected in negative adjective associations;
(2) all models reproduce these dialect naming and dialect usage biases in their
decision making; and (3) contrary to prior work showing minimal bias with
explicit demographic mentions, we find that explicitly labeling linguistic
demographics--German dialect speakers--amplifies bias more than implicit cues
like dialect usage.