Sonder les signaux culturels dans les grands modèles de langage par le profilage d'auteur

Résumé

Les grands modèles de langage (LLM) sont de plus en plus déployés dans des applications ayant un impact sociétal, soulevant des inquiétudes concernant les biais culturels qu'ils encodent. Nous sondons ces représentations en évaluant si les LLM peuvent effectuer un profilage d'auteur à partir de paroles de chansons dans un cadre zero-shot, en déduisant le genre et l'origine ethnique des chanteurs sans ajustement spécifique à la tâche. Sur plusieurs modèles open-source évalués sur plus de 10 000 paroles, nous constatons que les LLM atteignent des performances de profilage non négligeables mais démontrent un alignement culturel systématique : la plupart des modèles privilégient par défaut l'origine ethnique nord-américaine, tandis que DeepSeek-1.5B s'aligne plus fortement avec l'origine ethnique asiatique. Cette conclusion émerge à la fois des distributions de prédiction des modèles et d'une analyse de leurs justifications générées. Pour quantifier ces disparités, nous introduisons deux métriques d'équité, la Divergence de Précision Modal (MAD) et la Divergence de Rappel (RD), et montrons que Ministral-8B présente le biais ethnique le plus marqué parmi les modèles évalués, tandis que Gemma-12B montre le comportement le plus équilibré. Notre code est disponible sur GitHub (https://github.com/ValentinLafargue/CulturalProbingLLM).

English

Large language models (LLMs) are increasingly deployed in applications with societal impact, raising concerns about the cultural biases they encode. We probe these representations by evaluating whether LLMs can perform author profiling from song lyrics in a zero-shot setting, inferring singers' gender and ethnicity without task-specific fine-tuning. Across several open-source models evaluated on more than 10,000 lyrics, we find that LLMs achieve non-trivial profiling performance but demonstrate systematic cultural alignment: most models default toward North American ethnicity, while DeepSeek-1.5B aligns more strongly with Asian ethnicity. This finding emerges from both the models' prediction distributions and an analysis of their generated rationales. To quantify these disparities, we introduce two fairness metrics, Modality Accuracy Divergence (MAD) and Recall Divergence (RD), and show that Ministral-8B displays the strongest ethnicity bias among the evaluated models, whereas Gemma-12B shows the most balanced behavior. Our code is available on GitHub (https://github.com/ValentinLafargue/CulturalProbingLLM).

Sonder les signaux culturels dans les grands modèles de langage par le profilage d'auteur

Probing Cultural Signals in Large Language Models through Author Profiling

Résumé

Support