DIWALI – Diversität und Inklusivität aWare kulturspezifische Items für Indien: Datensatz und Bewertung von LLMs für kulturelle Textanpassung im indischen Kontext
DIWALI - Diversity and Inclusivity aWare cuLture specific Items for India: Dataset and Assessment of LLMs for Cultural Text Adaptation in Indian Context
September 22, 2025
papers.authors: Pramit Sahoo, Maharaj Brahma, Maunendra Sankar Desarkar
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) werden in verschiedenen Aufgaben und Anwendungen weit verbreitet eingesetzt. Trotz ihrer umfangreichen Fähigkeiten wurde jedoch gezeigt, dass ihnen kulturelle Ausrichtung fehlt (ryan-etal-2024-unintended, alkhamissi-etal-2024-investigating) und sie aufgrund mangelnden kulturellen Wissens und Kompetenz voreingenommene Generierungen produzieren (naous-etal-2024-beer). Die Bewertung von LLMs hinsichtlich kulturellen Bewusstseins und Ausrichtung ist besonders herausfordernd, da es an geeigneten Bewertungsmetriken und der Verfügbarkeit von kulturell fundierten Datensätzen mangelt, die die immense Komplexität von Kulturen auf regionaler und subregionaler Ebene repräsentieren. Bestehende Datensätze für kulturspezifische Elemente (CSIs) konzentrieren sich hauptsächlich auf Konzepte auf regionaler Ebene und können falsch positive Ergebnisse enthalten. Um dieses Problem zu adressieren, stellen wir einen neuartigen CSI-Datensatz für die indische Kultur vor, der 17 kulturelle Facetten umfasst. Der Datensatz besteht aus sim8k kulturellen Konzepten aus 36 Subregionen. Um die kulturelle Kompetenz von LLMs bei einer kulturellen Textanpassungsaufgabe zu messen, bewerten wir die Anpassungen mithilfe der erstellten CSIs, LLM als Richter und menschlichen Bewertungen aus verschiedenen soziodemografischen Regionen. Darüber hinaus führen wir eine quantitative Analyse durch, die selektive subregionale Abdeckung und oberflächliche Anpassungen bei allen betrachteten LLMs aufzeigt. Unser Datensatz ist hier verfügbar: https://huggingface.co/datasets/nlip/DIWALI{https://huggingface.co/datasets/nlip/DIWALI}, Projektwebseite\href{https://nlip-lab.github.io/nlip/publications/diwali/{https://nlip-lab.github.io/nlip/publications/diwali/}}, und unser Codebase mit Modellausgaben kann hier gefunden werden: https://github.com/pramitsahoo/culture-evaluation{https://github.com/pramitsahoo/culture-evaluation}.
English
Large language models (LLMs) are widely used in various tasks and
applications. However, despite their wide capabilities, they are shown to lack
cultural alignment ryan-etal-2024-unintended,
alkhamissi-etal-2024-investigating and produce biased generations
naous-etal-2024-beer due to a lack of cultural knowledge and competence.
Evaluation of LLMs for cultural awareness and alignment is particularly
challenging due to the lack of proper evaluation metrics and unavailability of
culturally grounded datasets representing the vast complexity of cultures at
the regional and sub-regional levels. Existing datasets for culture specific
items (CSIs) focus primarily on concepts at the regional level and may contain
false positives. To address this issue, we introduce a novel CSI dataset for
Indian culture, belonging to 17 cultural facets. The dataset comprises sim8k
cultural concepts from 36 sub-regions. To measure the cultural competence of
LLMs on a cultural text adaptation task, we evaluate the adaptations using the
CSIs created, LLM as Judge, and human evaluations from diverse
socio-demographic region. Furthermore, we perform quantitative analysis
demonstrating selective sub-regional coverage and surface-level adaptations
across all considered LLMs. Our dataset is available here:
https://huggingface.co/datasets/nlip/DIWALI{https://huggingface.co/datasets/nlip/DIWALI},
project
webpage\href{https://nlip-lab.github.io/nlip/publications/diwali/{https://nlip-lab.github.io/nlip/publications/diwali/}},
and our codebase with model outputs can be found here:
https://github.com/pramitsahoo/culture-evaluation{https://github.com/pramitsahoo/culture-evaluation}.