DIWALI - Diversità e Inclusività per Elementi culturali specifici dell'India: Dataset e Valutazione di Modelli Linguistici per l'Adattamento di Testi Culturali nel Contesto Indiano
DIWALI - Diversity and Inclusivity aWare cuLture specific Items for India: Dataset and Assessment of LLMs for Cultural Text Adaptation in Indian Context
September 22, 2025
Autori: Pramit Sahoo, Maharaj Brahma, Maunendra Sankar Desarkar
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) sono ampiamente utilizzati in vari compiti e applicazioni. Tuttavia, nonostante le loro ampie capacità, è stato dimostrato che mancano di allineamento culturale (ryan-etal-2024-unintended, alkhamissi-etal-2024-investigating) e producono generazioni distorte (naous-etal-2024-beer) a causa di una mancanza di conoscenza e competenza culturale. La valutazione degli LLM per la consapevolezza e l'allineamento culturale è particolarmente complessa a causa della mancanza di metriche di valutazione adeguate e dell'indisponibilità di dataset culturalmente radicati che rappresentino la vasta complessità delle culture a livello regionale e sub-regionale. I dataset esistenti per gli elementi specifici della cultura (CSI) si concentrano principalmente su concetti a livello regionale e possono contenere falsi positivi. Per affrontare questo problema, introduciamo un nuovo dataset CSI per la cultura indiana, appartenente a 17 aspetti culturali. Il dataset comprende sim8k concetti culturali provenienti da 36 sub-regioni. Per misurare la competenza culturale degli LLM in un compito di adattamento di testi culturali, valutiamo gli adattamenti utilizzando i CSI creati, LLM come giudice e valutazioni umane provenienti da diverse regioni socio-demografiche. Inoltre, eseguiamo un'analisi quantitativa che dimostra una copertura selettiva a livello sub-regionale e adattamenti superficiali in tutti gli LLM considerati. Il nostro dataset è disponibile qui: https://huggingface.co/datasets/nlip/DIWALI{https://huggingface.co/datasets/nlip/DIWALI}, la pagina del progetto \href{https://nlip-lab.github.io/nlip/publications/diwali/{https://nlip-lab.github.io/nlip/publications/diwali/}}, e il nostro codice con gli output del modello può essere trovato qui: https://github.com/pramitsahoo/culture-evaluation{https://github.com/pramitsahoo/culture-evaluation}.
English
Large language models (LLMs) are widely used in various tasks and
applications. However, despite their wide capabilities, they are shown to lack
cultural alignment ryan-etal-2024-unintended,
alkhamissi-etal-2024-investigating and produce biased generations
naous-etal-2024-beer due to a lack of cultural knowledge and competence.
Evaluation of LLMs for cultural awareness and alignment is particularly
challenging due to the lack of proper evaluation metrics and unavailability of
culturally grounded datasets representing the vast complexity of cultures at
the regional and sub-regional levels. Existing datasets for culture specific
items (CSIs) focus primarily on concepts at the regional level and may contain
false positives. To address this issue, we introduce a novel CSI dataset for
Indian culture, belonging to 17 cultural facets. The dataset comprises sim8k
cultural concepts from 36 sub-regions. To measure the cultural competence of
LLMs on a cultural text adaptation task, we evaluate the adaptations using the
CSIs created, LLM as Judge, and human evaluations from diverse
socio-demographic region. Furthermore, we perform quantitative analysis
demonstrating selective sub-regional coverage and surface-level adaptations
across all considered LLMs. Our dataset is available here:
https://huggingface.co/datasets/nlip/DIWALI{https://huggingface.co/datasets/nlip/DIWALI},
project
webpage\href{https://nlip-lab.github.io/nlip/publications/diwali/{https://nlip-lab.github.io/nlip/publications/diwali/}},
and our codebase with model outputs can be found here:
https://github.com/pramitsahoo/culture-evaluation{https://github.com/pramitsahoo/culture-evaluation}.