DIWALI - Diversidade e Inclusividade em Itens Culturais Específicos para a Índia: Conjunto de Dados e Avaliação de Modelos de Linguagem para Adaptação de Textos Culturais no Contexto Indiano

Resumo

Os modelos de linguagem de grande escala (LLMs) são amplamente utilizados em diversas tarefas e aplicações. No entanto, apesar de suas amplas capacidades, demonstram falta de alinhamento cultural (ryan-etal-2024-unintended, alkhamissi-etal-2024-investigating) e produzem gerações tendenciosas (naous-etal-2024-beer) devido à falta de conhecimento e competência cultural. A avaliação de LLMs para consciência e alinhamento cultural é particularmente desafiadora devido à ausência de métricas de avaliação adequadas e à indisponibilidade de conjuntos de dados culturalmente fundamentados que representem a vasta complexidade das culturas em níveis regionais e sub-regionais. Os conjuntos de dados existentes para itens culturais específicos (CSIs) focam principalmente em conceitos em nível regional e podem conter falsos positivos. Para abordar essa questão, introduzimos um novo conjunto de dados de CSIs para a cultura indiana, pertencente a 17 facetas culturais. O conjunto de dados compreende sim8k conceitos culturais de 36 sub-regiões. Para medir a competência cultural dos LLMs em uma tarefa de adaptação de texto cultural, avaliamos as adaptações usando os CSIs criados, LLM como Juiz e avaliações humanas de diversas regiões sociodemográficas. Além disso, realizamos uma análise quantitativa demonstrando cobertura seletiva sub-regional e adaptações superficiais em todos os LLMs considerados. Nosso conjunto de dados está disponível aqui: https://huggingface.co/datasets/nlip/DIWALI, página do projeto \href{https://nlip-lab.github.io/nlip/publications/diwali/}, e nosso repositório de código com saídas dos modelos pode ser encontrado aqui: https://github.com/pramitsahoo/culture-evaluation.

English

Large language models (LLMs) are widely used in various tasks and applications. However, despite their wide capabilities, they are shown to lack cultural alignment ryan-etal-2024-unintended, alkhamissi-etal-2024-investigating and produce biased generations naous-etal-2024-beer due to a lack of cultural knowledge and competence. Evaluation of LLMs for cultural awareness and alignment is particularly challenging due to the lack of proper evaluation metrics and unavailability of culturally grounded datasets representing the vast complexity of cultures at the regional and sub-regional levels. Existing datasets for culture specific items (CSIs) focus primarily on concepts at the regional level and may contain false positives. To address this issue, we introduce a novel CSI dataset for Indian culture, belonging to 17 cultural facets. The dataset comprises sim8k cultural concepts from 36 sub-regions. To measure the cultural competence of LLMs on a cultural text adaptation task, we evaluate the adaptations using the CSIs created, LLM as Judge, and human evaluations from diverse socio-demographic region. Furthermore, we perform quantitative analysis demonstrating selective sub-regional coverage and surface-level adaptations across all considered LLMs. Our dataset is available here: https://huggingface.co/datasets/nlip/DIWALI{https://huggingface.co/datasets/nlip/DIWALI}, project webpage\href{https://nlip-lab.github.io/nlip/publications/diwali/{https://nlip-lab.github.io/nlip/publications/diwali/}}, and our codebase with model outputs can be found here: https://github.com/pramitsahoo/culture-evaluation{https://github.com/pramitsahoo/culture-evaluation}.

DIWALI - Diversidade e Inclusividade em Itens Culturais Específicos para a Índia: Conjunto de Dados e Avaliação de Modelos de Linguagem para Adaptação de Textos Culturais no Contexto Indiano

DIWALI - Diversity and Inclusivity aWare cuLture specific Items for India: Dataset and Assessment of LLMs for Cultural Text Adaptation in Indian Context

Resumo

Support