DIWALI - Diversidad e Inclusividad en Ítems Culturales Específicos para la India: Conjunto de Datos y Evaluación de Modelos de Lenguaje para la Adaptación de Textos Culturales en el Contexto Indio
DIWALI - Diversity and Inclusivity aWare cuLture specific Items for India: Dataset and Assessment of LLMs for Cultural Text Adaptation in Indian Context
September 22, 2025
Autores: Pramit Sahoo, Maharaj Brahma, Maunendra Sankar Desarkar
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se utilizan ampliamente en diversas tareas y aplicaciones. Sin embargo, a pesar de sus amplias capacidades, se ha demostrado que carecen de alineación cultural ryan-etal-2024-unintended, alkhamissi-etal-2024-investigating y generan sesgos naous-etal-2024-beer debido a la falta de conocimiento y competencia cultural. La evaluación de los LLMs en cuanto a conciencia y alineación cultural es particularmente desafiante debido a la falta de métricas de evaluación adecuadas y a la ausencia de conjuntos de datos culturalmente fundamentados que representen la vasta complejidad de las culturas a nivel regional y subregional. Los conjuntos de datos existentes para elementos culturales específicos (CSIs, por sus siglas en inglés) se centran principalmente en conceptos a nivel regional y pueden contener falsos positivos. Para abordar este problema, presentamos un nuevo conjunto de datos de CSIs para la cultura india, perteneciente a 17 facetas culturales. El conjunto de datos comprende sim8k conceptos culturales de 36 subregiones. Para medir la competencia cultural de los LLMs en una tarea de adaptación de texto cultural, evaluamos las adaptaciones utilizando los CSIs creados, el LLM como juez y evaluaciones humanas de diversas regiones sociodemográficas. Además, realizamos un análisis cuantitativo que demuestra una cobertura selectiva subregional y adaptaciones superficiales en todos los LLMs considerados. Nuestro conjunto de datos está disponible aquí: https://huggingface.co/datasets/nlip/DIWALI{https://huggingface.co/datasets/nlip/DIWALI}, página del proyecto\href{https://nlip-lab.github.io/nlip/publications/diwali/{https://nlip-lab.github.io/nlip/publications/diwali/}}, y nuestro repositorio de código con las salidas del modelo se puede encontrar aquí: https://github.com/pramitsahoo/culture-evaluation{https://github.com/pramitsahoo/culture-evaluation}.
English
Large language models (LLMs) are widely used in various tasks and
applications. However, despite their wide capabilities, they are shown to lack
cultural alignment ryan-etal-2024-unintended,
alkhamissi-etal-2024-investigating and produce biased generations
naous-etal-2024-beer due to a lack of cultural knowledge and competence.
Evaluation of LLMs for cultural awareness and alignment is particularly
challenging due to the lack of proper evaluation metrics and unavailability of
culturally grounded datasets representing the vast complexity of cultures at
the regional and sub-regional levels. Existing datasets for culture specific
items (CSIs) focus primarily on concepts at the regional level and may contain
false positives. To address this issue, we introduce a novel CSI dataset for
Indian culture, belonging to 17 cultural facets. The dataset comprises sim8k
cultural concepts from 36 sub-regions. To measure the cultural competence of
LLMs on a cultural text adaptation task, we evaluate the adaptations using the
CSIs created, LLM as Judge, and human evaluations from diverse
socio-demographic region. Furthermore, we perform quantitative analysis
demonstrating selective sub-regional coverage and surface-level adaptations
across all considered LLMs. Our dataset is available here:
https://huggingface.co/datasets/nlip/DIWALI{https://huggingface.co/datasets/nlip/DIWALI},
project
webpage\href{https://nlip-lab.github.io/nlip/publications/diwali/{https://nlip-lab.github.io/nlip/publications/diwali/}},
and our codebase with model outputs can be found here:
https://github.com/pramitsahoo/culture-evaluation{https://github.com/pramitsahoo/culture-evaluation}.