Analisi dei Segnali Culturali nei Modelli Linguistici di Grandi Dimensioni tramite il Profiling degli Autori

Abstract

I modelli linguistici di grandi dimensioni (LLM) sono sempre più impiegati in applicazioni con impatto sociale, sollevando preoccupazioni riguardo ai pregiudizi culturali che codificano. Indaghiamo queste rappresentazioni valutando se gli LLM siano in grado di eseguire la profilazione degli autori a partire dai testi delle canzoni in uno scenario zero-shot, inferendo il genere e l'etnia dei cantanti senza una messa a punto specifica per il compito. Valutando diversi modelli open-source su oltre 10.000 testi, riscontriamo che gli LLM raggiungono prestazioni di profilazione non banali ma dimostrano un allineamento culturale sistematico: la maggior parte dei modelli tende a prediligere l'etnia nordamericana, mentre DeepSeek-1.5B si allinea più fortemente con l'etnia asiatica. Questa scoperta emerge sia dalle distribuzioni predittive dei modelli che da un'analisi delle loro ragioni generate. Per quantificare queste disparità, introduciamo due metriche di equità, la Divergenza di Accuratezza Modale (MAD) e la Divergenza di Richiamo (RD), e dimostriamo che Ministral-8B presenta il pregiudizio etnico più marcato tra i modelli valutati, mentre Gemma-12B mostra il comportamento più equilibrato. Il nostro codice è disponibile su GitHub (https://github.com/ValentinLafargue/CulturalProbingLLM).

English

Large language models (LLMs) are increasingly deployed in applications with societal impact, raising concerns about the cultural biases they encode. We probe these representations by evaluating whether LLMs can perform author profiling from song lyrics in a zero-shot setting, inferring singers' gender and ethnicity without task-specific fine-tuning. Across several open-source models evaluated on more than 10,000 lyrics, we find that LLMs achieve non-trivial profiling performance but demonstrate systematic cultural alignment: most models default toward North American ethnicity, while DeepSeek-1.5B aligns more strongly with Asian ethnicity. This finding emerges from both the models' prediction distributions and an analysis of their generated rationales. To quantify these disparities, we introduce two fairness metrics, Modality Accuracy Divergence (MAD) and Recall Divergence (RD), and show that Ministral-8B displays the strongest ethnicity bias among the evaluated models, whereas Gemma-12B shows the most balanced behavior. Our code is available on GitHub (https://github.com/ValentinLafargue/CulturalProbingLLM).

Analisi dei Segnali Culturali nei Modelli Linguistici di Grandi Dimensioni tramite il Profiling degli Autori

Probing Cultural Signals in Large Language Models through Author Profiling

Abstract

Support