Exploración de Señales Culturales en Modelos de Lenguaje a Gran Escala mediante la Perfilación de Autores

Resumen

Los grandes modelos de lenguaje (LLM) se despliegan cada vez más en aplicaciones con impacto social, lo que genera preocupación sobre los sesgos culturales que codifican. Investigamos estas representaciones evaluando si los LLM pueden realizar perfiles de autor a partir de letras de canciones en un entorno de cero disparos, infiriendo el género y la etnia de los cantantes sin ajuste fino específico de la tarea. En varios modelos de código abierto evaluados con más de 10,000 letras, encontramos que los LLM logran un rendimiento de perfilado no trivial, pero demuestran una alineación cultural sistemática: la mayoría de los modelos se inclinan por defecto hacia la etnia norteamericana, mientras que DeepSeek-1.5B se alinea más fuertemente con la etnia asiática. Este hallazgo surge tanto de las distribuciones de predicción de los modelos como de un análisis de sus razonamientos generados. Para cuantificar estas disparidades, introducimos dos métricas de equidad, la Divergencia de Precisión Modal (MAD) y la Divergencia de Exhaustividad (RD), y mostramos que Mistral-8B presenta el sesgo étnico más fuerte entre los modelos evaluados, mientras que Gemma-12B muestra el comportamiento más equilibrado. Nuestro código está disponible en GitHub (https://github.com/ValentinLafargue/CulturalProbingLLM).

English

Large language models (LLMs) are increasingly deployed in applications with societal impact, raising concerns about the cultural biases they encode. We probe these representations by evaluating whether LLMs can perform author profiling from song lyrics in a zero-shot setting, inferring singers' gender and ethnicity without task-specific fine-tuning. Across several open-source models evaluated on more than 10,000 lyrics, we find that LLMs achieve non-trivial profiling performance but demonstrate systematic cultural alignment: most models default toward North American ethnicity, while DeepSeek-1.5B aligns more strongly with Asian ethnicity. This finding emerges from both the models' prediction distributions and an analysis of their generated rationales. To quantify these disparities, we introduce two fairness metrics, Modality Accuracy Divergence (MAD) and Recall Divergence (RD), and show that Ministral-8B displays the strongest ethnicity bias among the evaluated models, whereas Gemma-12B shows the most balanced behavior. Our code is available on GitHub (https://github.com/ValentinLafargue/CulturalProbingLLM).

Exploración de Señales Culturales en Modelos de Lenguaje a Gran Escala mediante la Perfilación de Autores

Probing Cultural Signals in Large Language Models through Author Profiling

Resumen

Support