ChatPaper.aiChatPaper

Modelos de Linguagem de Grande Escala Discriminam Falantes de Dialetos Alemães

Large Language Models Discriminate Against Speakers of German Dialects

September 17, 2025
Autores: Minh Duc Bui, Carolin Holtermann, Valentin Hofmann, Anne Lauscher, Katharina von der Wense
cs.AI

Resumo

Os dialetos representam um componente significativo da cultura humana e são encontrados em todas as regiões do mundo. Na Alemanha, mais de 40% da população fala um dialeto regional (Adler e Hansen, 2022). No entanto, apesar da importância cultural, indivíduos que falam dialetos frequentemente enfrentam estereótipos sociais negativos. Investigamos se tais estereótipos são refletidos por modelos de linguagem de grande escala (LLMs, na sigla em inglês). Baseamo-nos na literatura sociolinguística sobre a percepção de dialetos para analisar traços comumente associados a falantes de dialetos. Com base nesses traços, avaliamos o viés de nomeação de dialetos e o viés de uso de dialetos expressos por LLMs em duas tarefas: uma tarefa de associação e uma tarefa de decisão. Para avaliar o viés de uso de dialetos de um modelo, construímos um corpus de avaliação inédito que emparelha frases de sete dialetos regionais alemães (por exemplo, alemânico e bávaro) com suas contrapartes no alemão padrão. Descobrimos que: (1) na tarefa de associação, todos os LLMs avaliados exibem um viés significativo de nomeação e uso de dialetos contra falantes de dialetos alemães, refletido em associações de adjetivos negativos; (2) todos os modelos reproduzem esses vieses de nomeação e uso de dialetos em suas tomadas de decisão; e (3) ao contrário de trabalhos anteriores que mostram um viés mínimo com menções explícitas a demografias, descobrimos que rotular explicitamente as demografias linguísticas—falantes de dialetos alemães—amplifica o viés mais do que pistas implícitas, como o uso de dialetos.
English
Dialects represent a significant component of human culture and are found across all regions of the world. In Germany, more than 40% of the population speaks a regional dialect (Adler and Hansen, 2022). However, despite cultural importance, individuals speaking dialects often face negative societal stereotypes. We examine whether such stereotypes are mirrored by large language models (LLMs). We draw on the sociolinguistic literature on dialect perception to analyze traits commonly associated with dialect speakers. Based on these traits, we assess the dialect naming bias and dialect usage bias expressed by LLMs in two tasks: an association task and a decision task. To assess a model's dialect usage bias, we construct a novel evaluation corpus that pairs sentences from seven regional German dialects (e.g., Alemannic and Bavarian) with their standard German counterparts. We find that: (1) in the association task, all evaluated LLMs exhibit significant dialect naming and dialect usage bias against German dialect speakers, reflected in negative adjective associations; (2) all models reproduce these dialect naming and dialect usage biases in their decision making; and (3) contrary to prior work showing minimal bias with explicit demographic mentions, we find that explicitly labeling linguistic demographics--German dialect speakers--amplifies bias more than implicit cues like dialect usage.
PDF72September 24, 2025