Los Modelos de Lenguaje a Gran Escala Discriminan a los Hablantes de Dialectos Alemanes
Large Language Models Discriminate Against Speakers of German Dialects
September 17, 2025
Autores: Minh Duc Bui, Carolin Holtermann, Valentin Hofmann, Anne Lauscher, Katharina von der Wense
cs.AI
Resumen
Los dialectos representan un componente significativo de la cultura humana y se encuentran presentes en todas las regiones del mundo. En Alemania, más del 40% de la población habla un dialecto regional (Adler y Hansen, 2022). Sin embargo, a pesar de su importancia cultural, las personas que hablan dialectos a menudo enfrentan estereotipos sociales negativos. Examinamos si dichos estereotipos se reflejan en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Nos basamos en la literatura sociolingüística sobre la percepción de los dialectos para analizar los rasgos comúnmente asociados con los hablantes de dialectos. Con base en estos rasgos, evaluamos el sesgo en la denominación de dialectos y el sesgo en el uso de dialectos expresado por los LLMs en dos tareas: una tarea de asociación y una tarea de decisión. Para evaluar el sesgo en el uso de dialectos de un modelo, construimos un corpus de evaluación novedoso que empareja oraciones de siete dialectos regionales alemanes (por ejemplo, alemánico y bávaro) con sus contrapartes en alemán estándar. Encontramos que: (1) en la tarea de asociación, todos los LLMs evaluados exhiben un sesgo significativo en la denominación y el uso de dialectos contra los hablantes de dialectos alemanes, reflejado en asociaciones de adjetivos negativos; (2) todos los modelos reproducen estos sesgos en la denominación y el uso de dialectos en su toma de decisiones; y (3) en contraste con trabajos previos que muestran un sesgo mínimo con menciones demográficas explícitas, encontramos que etiquetar explícitamente las características demográficas lingüísticas—los hablantes de dialectos alemanes—amplifica el sesgo más que las señales implícitas como el uso del dialecto.
English
Dialects represent a significant component of human culture and are found
across all regions of the world. In Germany, more than 40% of the population
speaks a regional dialect (Adler and Hansen, 2022). However, despite cultural
importance, individuals speaking dialects often face negative societal
stereotypes. We examine whether such stereotypes are mirrored by large language
models (LLMs). We draw on the sociolinguistic literature on dialect perception
to analyze traits commonly associated with dialect speakers. Based on these
traits, we assess the dialect naming bias and dialect usage bias expressed by
LLMs in two tasks: an association task and a decision task. To assess a model's
dialect usage bias, we construct a novel evaluation corpus that pairs sentences
from seven regional German dialects (e.g., Alemannic and Bavarian) with their
standard German counterparts. We find that: (1) in the association task, all
evaluated LLMs exhibit significant dialect naming and dialect usage bias
against German dialect speakers, reflected in negative adjective associations;
(2) all models reproduce these dialect naming and dialect usage biases in their
decision making; and (3) contrary to prior work showing minimal bias with
explicit demographic mentions, we find that explicitly labeling linguistic
demographics--German dialect speakers--amplifies bias more than implicit cues
like dialect usage.