Крупные языковые модели дискриминируют носителей немецких диалектов.

Аннотация

Диалекты представляют собой значимую составляющую человеческой культуры и встречаются во всех регионах мира. В Германии более 40% населения говорит на региональных диалектах (Adler и Hansen, 2022). Однако, несмотря на культурную важность, люди, говорящие на диалектах, часто сталкиваются с негативными социальными стереотипами. Мы исследуем, отражаются ли такие стереотипы в крупных языковых моделях (LLM). Мы опираемся на социолингвистическую литературу о восприятии диалектов, чтобы проанализировать черты, обычно ассоциируемые с носителями диалектов. На основе этих черт мы оцениваем предвзятость в наименовании диалектов и предвзятость в использовании диалектов, выраженную LLM в двух задачах: задаче на ассоциации и задаче на принятие решений. Для оценки предвзятости в использовании диалектов моделью мы создаем новый оценочный корпус, который сопоставляет предложения из семи региональных немецких диалектов (например, алеманнского и баварского) с их стандартными немецкими аналогами. Мы обнаруживаем, что: (1) в задаче на ассоциации все протестированные LLM демонстрируют значительную предвзятость в наименовании и использовании диалектов против носителей немецких диалектов, что выражается в негативных ассоциациях с прилагательными; (2) все модели воспроизводят эти предубеждения в наименовании и использовании диалектов в своих решениях; и (3) в отличие от предыдущих работ, показывающих минимальную предвзятость при явном упоминании демографических характеристик, мы обнаруживаем, что явное указание на лингвистическую демографию — носителей немецких диалектов — усиливает предвзятость больше, чем неявные сигналы, такие как использование диалектов.

English

Dialects represent a significant component of human culture and are found across all regions of the world. In Germany, more than 40% of the population speaks a regional dialect (Adler and Hansen, 2022). However, despite cultural importance, individuals speaking dialects often face negative societal stereotypes. We examine whether such stereotypes are mirrored by large language models (LLMs). We draw on the sociolinguistic literature on dialect perception to analyze traits commonly associated with dialect speakers. Based on these traits, we assess the dialect naming bias and dialect usage bias expressed by LLMs in two tasks: an association task and a decision task. To assess a model's dialect usage bias, we construct a novel evaluation corpus that pairs sentences from seven regional German dialects (e.g., Alemannic and Bavarian) with their standard German counterparts. We find that: (1) in the association task, all evaluated LLMs exhibit significant dialect naming and dialect usage bias against German dialect speakers, reflected in negative adjective associations; (2) all models reproduce these dialect naming and dialect usage biases in their decision making; and (3) contrary to prior work showing minimal bias with explicit demographic mentions, we find that explicitly labeling linguistic demographics--German dialect speakers--amplifies bias more than implicit cues like dialect usage.

Крупные языковые модели дискриминируют носителей немецких диалектов.

Large Language Models Discriminate Against Speakers of German Dialects

Аннотация

Support