Investigação de Sinais Culturais em Modelos de Linguagem de Grande Escala por meio de Perfilamento de Autores

Resumo

Os grandes modelos de linguagem (LLMs) estão cada vez mais implantados em aplicações com impacto social, levantando preocupações sobre os vieses culturais que codificam. Investigamos essas representações avaliando se os LLMs podem realizar a caracterização de autores a partir de letras de música em um cenário *zero-shot*, inferindo o gênero e a etnia dos cantores sem ajuste fino específico para a tarefa. Em vários modelos de código aberto avaliados em mais de 10.000 letras, descobrimos que os LLMs alcançam um desempenho de caracterização não trivial, mas demonstram um alinhamento cultural sistemático: a maioria dos modelos tende a padrões étnicos norte-americanos, enquanto o DeepSeek-1.5B alinha-se mais fortemente com a etnia asiática. Esta conclusão emerge tanto das distribuições de previsão dos modelos quanto de uma análise das racionalizações por eles geradas. Para quantificar essas disparidades, introduzimos duas métricas de justiça, o *Divergência de Acurácia Modal* (MAD) e o *Divergência de Revocação* (RD), e mostramos que o Ministral-8B exibe o viés étnico mais forte entre os modelos avaliados, enquanto o Gemma-12B apresenta o comportamento mais equilibrado. Nosso código está disponível no GitHub (https://github.com/ValentinLafargue/CulturalProbingLLM).

English

Large language models (LLMs) are increasingly deployed in applications with societal impact, raising concerns about the cultural biases they encode. We probe these representations by evaluating whether LLMs can perform author profiling from song lyrics in a zero-shot setting, inferring singers' gender and ethnicity without task-specific fine-tuning. Across several open-source models evaluated on more than 10,000 lyrics, we find that LLMs achieve non-trivial profiling performance but demonstrate systematic cultural alignment: most models default toward North American ethnicity, while DeepSeek-1.5B aligns more strongly with Asian ethnicity. This finding emerges from both the models' prediction distributions and an analysis of their generated rationales. To quantify these disparities, we introduce two fairness metrics, Modality Accuracy Divergence (MAD) and Recall Divergence (RD), and show that Ministral-8B displays the strongest ethnicity bias among the evaluated models, whereas Gemma-12B shows the most balanced behavior. Our code is available on GitHub (https://github.com/ValentinLafargue/CulturalProbingLLM).

Investigação de Sinais Culturais em Modelos de Linguagem de Grande Escala por meio de Perfilamento de Autores

Probing Cultural Signals in Large Language Models through Author Profiling

Resumo

Support