ChatPaper.aiChatPaper

SeeGULL : Un benchmark de stéréotypes avec une large couverture géoculturelle Exploitant les modèles génératifs

SeeGULL: A Stereotype Benchmark with Broad Geo-Cultural Coverage Leveraging Generative Models

May 19, 2023
Auteurs: Akshita Jha, Aida Davani, Chandan K. Reddy, Shachi Dave, Vinodkumar Prabhakaran, Sunipa Dev
cs.AI

Résumé

Les ensembles de données de référence sur les stéréotypes sont essentiels pour détecter et atténuer les stéréotypes sociaux concernant des groupes de personnes dans les modèles de traitement du langage naturel (NLP). Cependant, les ensembles de données existants sont limités en taille et en couverture, et se concentrent largement sur les stéréotypes prévalents dans la société occidentale. Cela pose un problème particulièrement important à mesure que les technologies linguistiques se répandent à travers le monde. Pour combler cette lacune, nous présentons SeeGULL, un ensemble de données sur les stéréotypes à large couverture, construit en exploitant les capacités génératives de grands modèles de langage tels que PaLM et GPT-3, et en s'appuyant sur un panel diversifié d'évaluateurs à l'échelle mondiale pour valider la prévalence de ces stéréotypes dans la société. SeeGULL est en anglais et contient des stéréotypes concernant des groupes identitaires issus de 178 pays répartis dans 8 régions géopolitiques différentes sur 6 continents, ainsi que des identités au niveau des États aux États-Unis et en Inde. Nous incluons également des scores détaillés d'offensivité pour différents stéréotypes et mettons en évidence leurs disparités à l'échelle mondiale. De plus, nous intégrons des annotations comparatives sur les mêmes groupes par des annotateurs vivant dans la région concernée par rapport à ceux basés en Amérique du Nord, et démontrons que les stéréotypes régionaux concernant les groupes diffèrent de ceux prévalents en Amérique du Nord. AVERTISSEMENT : Ce document contient des exemples de stéréotypes qui peuvent être offensants.
English
Stereotype benchmark datasets are crucial to detect and mitigate social stereotypes about groups of people in NLP models. However, existing datasets are limited in size and coverage, and are largely restricted to stereotypes prevalent in the Western society. This is especially problematic as language technologies gain hold across the globe. To address this gap, we present SeeGULL, a broad-coverage stereotype dataset, built by utilizing generative capabilities of large language models such as PaLM, and GPT-3, and leveraging a globally diverse rater pool to validate the prevalence of those stereotypes in society. SeeGULL is in English, and contains stereotypes about identity groups spanning 178 countries across 8 different geo-political regions across 6 continents, as well as state-level identities within the US and India. We also include fine-grained offensiveness scores for different stereotypes and demonstrate their global disparities. Furthermore, we include comparative annotations about the same groups by annotators living in the region vs. those that are based in North America, and demonstrate that within-region stereotypes about groups differ from those prevalent in North America. CONTENT WARNING: This paper contains stereotype examples that may be offensive.
PDF10December 15, 2024