Крупные языковые модели дискриминируют носителей немецких диалектов.
Large Language Models Discriminate Against Speakers of German Dialects
September 17, 2025
Авторы: Minh Duc Bui, Carolin Holtermann, Valentin Hofmann, Anne Lauscher, Katharina von der Wense
cs.AI
Аннотация
Диалекты представляют собой значимую составляющую человеческой культуры и встречаются во всех регионах мира. В Германии более 40% населения говорит на региональных диалектах (Adler и Hansen, 2022). Однако, несмотря на культурную важность, люди, говорящие на диалектах, часто сталкиваются с негативными социальными стереотипами. Мы исследуем, отражаются ли такие стереотипы в крупных языковых моделях (LLM). Мы опираемся на социолингвистическую литературу о восприятии диалектов, чтобы проанализировать черты, обычно ассоциируемые с носителями диалектов. На основе этих черт мы оцениваем предвзятость в наименовании диалектов и предвзятость в использовании диалектов, выраженную LLM в двух задачах: задаче на ассоциации и задаче на принятие решений. Для оценки предвзятости в использовании диалектов моделью мы создаем новый оценочный корпус, который сопоставляет предложения из семи региональных немецких диалектов (например, алеманнского и баварского) с их стандартными немецкими аналогами. Мы обнаруживаем, что: (1) в задаче на ассоциации все протестированные LLM демонстрируют значительную предвзятость в наименовании и использовании диалектов против носителей немецких диалектов, что выражается в негативных ассоциациях с прилагательными; (2) все модели воспроизводят эти предубеждения в наименовании и использовании диалектов в своих решениях; и (3) в отличие от предыдущих работ, показывающих минимальную предвзятость при явном упоминании демографических характеристик, мы обнаруживаем, что явное указание на лингвистическую демографию — носителей немецких диалектов — усиливает предвзятость больше, чем неявные сигналы, такие как использование диалектов.
English
Dialects represent a significant component of human culture and are found
across all regions of the world. In Germany, more than 40% of the population
speaks a regional dialect (Adler and Hansen, 2022). However, despite cultural
importance, individuals speaking dialects often face negative societal
stereotypes. We examine whether such stereotypes are mirrored by large language
models (LLMs). We draw on the sociolinguistic literature on dialect perception
to analyze traits commonly associated with dialect speakers. Based on these
traits, we assess the dialect naming bias and dialect usage bias expressed by
LLMs in two tasks: an association task and a decision task. To assess a model's
dialect usage bias, we construct a novel evaluation corpus that pairs sentences
from seven regional German dialects (e.g., Alemannic and Bavarian) with their
standard German counterparts. We find that: (1) in the association task, all
evaluated LLMs exhibit significant dialect naming and dialect usage bias
against German dialect speakers, reflected in negative adjective associations;
(2) all models reproduce these dialect naming and dialect usage biases in their
decision making; and (3) contrary to prior work showing minimal bias with
explicit demographic mentions, we find that explicitly labeling linguistic
demographics--German dialect speakers--amplifies bias more than implicit cues
like dialect usage.