Untersuchung kultureller Signale in großen Sprachmodellen mittels Autorenprofilierung

Zusammenfassung

Große Sprachmodelle (LLMs) werden zunehmend in Anwendungen mit gesellschaftlicher Tragweite eingesetzt, was Bedenken hinsichtlich der kulturellen Verzerrungen (Biases) aufwirft, die sie kodieren. Wir untersuchen diese Repräsentationen, indem wir evaluieren, ob LLMs in einem Zero-Shot-Setting Autorenprofilierung anhand von Songtexten durchführen können, also das Geschlecht und die ethnische Zugehörigkeit von Sängern ohne taskspezifisches Fine-Tuning inferieren. Bei der Auswertung mehrerer Open-Source-Modelle mit über 10.000 Songtexten stellen wir fest, dass LLMs eine nicht-triviale Profiling-Leistung erbringen, aber systematische kulturelle Ausrichtungen zeigen: Die meisten Modelle tendieren standardmäßig zur nordamerikanischen Ethnizität, während DeepSeek-1.5B stärker mit asiatischer Ethnizität übereinstimmt. Diese Erkenntnis ergibt sich sowohl aus den Vorhersageverteilungen der Modelle als auch aus einer Analyse ihrer generierten Begründungen. Um diese Disparitäten zu quantifizieren, führen wir zwei Fairness-Metriken ein, die Modality Accuracy Divergence (MAD) und die Recall Divergence (RD), und zeigen, dass Ministral-8B die stärkste Ethnizitätsverzerrung unter den evaluierten Modellen aufweist, während Gemma-12B das ausgewogenste Verhalten zeigt. Unser Code ist auf GitHub verfügbar (https://github.com/ValentinLafargue/CulturalProbingLLM).

English

Large language models (LLMs) are increasingly deployed in applications with societal impact, raising concerns about the cultural biases they encode. We probe these representations by evaluating whether LLMs can perform author profiling from song lyrics in a zero-shot setting, inferring singers' gender and ethnicity without task-specific fine-tuning. Across several open-source models evaluated on more than 10,000 lyrics, we find that LLMs achieve non-trivial profiling performance but demonstrate systematic cultural alignment: most models default toward North American ethnicity, while DeepSeek-1.5B aligns more strongly with Asian ethnicity. This finding emerges from both the models' prediction distributions and an analysis of their generated rationales. To quantify these disparities, we introduce two fairness metrics, Modality Accuracy Divergence (MAD) and Recall Divergence (RD), and show that Ministral-8B displays the strongest ethnicity bias among the evaluated models, whereas Gemma-12B shows the most balanced behavior. Our code is available on GitHub (https://github.com/ValentinLafargue/CulturalProbingLLM).

Untersuchung kultureller Signale in großen Sprachmodellen mittels Autorenprofilierung

Probing Cultural Signals in Large Language Models through Author Profiling

Zusammenfassung

Support