Исследование культурных сигналов в больших языковых моделях с помощью профилирования авторов

Аннотация

Крупные языковые модели (LLMs) все чаще применяются в системах, оказывающих влияние на общество, что вызывает обеспокоенность по поводу кодируемых в них культурных предубеждений. Мы исследуем эти репрезентации, оценивая способность LLMs в условиях zero-shot выполнять профилирование авторов по текстам песен, определяя пол и этническую принадлежность исполнителей без специфической дообучки. На основе оценки нескольких открытых моделей на выборке более 10 000 текстов мы обнаружили, что LLMs демонстрируют нетривиальную эффективность в профилировании, но при этом выявляют систематическую культурную ориентацию: большинство моделей по умолчанию склоняются к североамериканской этнической принадлежности, тогда как DeepSeek-1.5B сильнее ассоциируется с азиатской этничностью. Этот вывод следует как из распределений предсказаний моделей, так и из анализа генерируемых ими обоснований. Для количественной оценки этих различий мы вводим две метрики справедливости — расхождение модальной точности (Modality Accuracy Divergence, MAD) и расхождение полноты (Recall Divergence, RD) — и показываем, что Ministral-8B демонстрирует наиболее сильное смещение по этническому признаку среди оцененных моделей, в то время как Gemma-12B проявляет наиболее сбалансированное поведение. Наш код доступен на GitHub (https://github.com/ValentinLafargue/CulturalProbingLLM).

English

Large language models (LLMs) are increasingly deployed in applications with societal impact, raising concerns about the cultural biases they encode. We probe these representations by evaluating whether LLMs can perform author profiling from song lyrics in a zero-shot setting, inferring singers' gender and ethnicity without task-specific fine-tuning. Across several open-source models evaluated on more than 10,000 lyrics, we find that LLMs achieve non-trivial profiling performance but demonstrate systematic cultural alignment: most models default toward North American ethnicity, while DeepSeek-1.5B aligns more strongly with Asian ethnicity. This finding emerges from both the models' prediction distributions and an analysis of their generated rationales. To quantify these disparities, we introduce two fairness metrics, Modality Accuracy Divergence (MAD) and Recall Divergence (RD), and show that Ministral-8B displays the strongest ethnicity bias among the evaluated models, whereas Gemma-12B shows the most balanced behavior. Our code is available on GitHub (https://github.com/ValentinLafargue/CulturalProbingLLM).

Исследование культурных сигналов в больших языковых моделях с помощью профилирования авторов

Probing Cultural Signals in Large Language Models through Author Profiling

Аннотация

Support