Распаковка Профессионального Предвзятости: Основанное на Данных о Труде США Дебиасирование LLMs
Unboxing Occupational Bias: Grounded Debiasing LLMs with U.S. Labor Data
August 20, 2024
Авторы: Atmika Gorti, Manas Gaur, Aman Chadha
cs.AI
Аннотация
Большие языковые модели (LLM) склонны наследовать и усиливать общественные предвзятости, заложенные в их обучающих данных, что потенциально усиливает вредные стереотипы, связанные с гендером, профессиями и другими чувствительными категориями. Эта проблема становится особенно острой, поскольку предвзятые LLM могут иметь далеко идущие последствия, приводя к несправедливым практикам и усугубляя социальные неравенства в различных областях, таких как найм, модерация онлайн-контента или даже уголовная юстиция. Хотя предыдущие исследования сосредоточились на выявлении предвзятости в LLM с использованием специализированных наборов данных, разработанных для выявления внутренних предвзятостей, наблюдается значительное отсутствие изучения того, как эти результаты коррелируют с авторитетными наборами данных, такими как данные Национального бюро статистики труда США (NBLS). Для заполнения этого пробела мы проводим эмпирическое исследование, которое оценивает LLM в условиях "предвзятости из коробки", анализируя, как сгенерированные выводы сравниваются с распределениями, найденными в данных NBLS. Более того, мы предлагаем простой, но эффективный механизм дебиасинга, который непосредственно включает экземпляры NBLS для смягчения предвзятости в LLM. Наше исследование охватывает семь различных LLM, включая обучаемые, базовые и модели смеси экспертов, и выявляет значительные уровни предвзятости, которые часто упускаются при существующих методах выявления предвзятости. Важно отметить, что наш метод дебиасинга, не полагающийся на внешние наборы данных, продемонстрировал существенное снижение показателей предвзятости, подчеркивая эффективность нашего подхода в создании более справедливых и надежных LLM.
English
Large Language Models (LLMs) are prone to inheriting and amplifying societal
biases embedded within their training data, potentially reinforcing harmful
stereotypes related to gender, occupation, and other sensitive categories. This
issue becomes particularly problematic as biased LLMs can have far-reaching
consequences, leading to unfair practices and exacerbating social inequalities
across various domains, such as recruitment, online content moderation, or even
the criminal justice system. Although prior research has focused on detecting
bias in LLMs using specialized datasets designed to highlight intrinsic biases,
there has been a notable lack of investigation into how these findings
correlate with authoritative datasets, such as those from the U.S. National
Bureau of Labor Statistics (NBLS). To address this gap, we conduct empirical
research that evaluates LLMs in a ``bias-out-of-the-box" setting, analyzing how
the generated outputs compare with the distributions found in NBLS data.
Furthermore, we propose a straightforward yet effective debiasing mechanism
that directly incorporates NBLS instances to mitigate bias within LLMs. Our
study spans seven different LLMs, including instructable, base, and
mixture-of-expert models, and reveals significant levels of bias that are often
overlooked by existing bias detection techniques. Importantly, our debiasing
method, which does not rely on external datasets, demonstrates a substantial
reduction in bias scores, highlighting the efficacy of our approach in creating
fairer and more reliable LLMs.Summary
AI-Generated Summary