AfriHate : Une collection multilingue de discours de haine et de langage abusif pour les langues africaines
AfriHate: A Multilingual Collection of Hate Speech and Abusive Language Datasets for African Languages
January 14, 2025
Auteurs: Shamsuddeen Hassan Muhammad, Idris Abdulmumin, Abinew Ali Ayele, David Ifeoluwa Adelani, Ibrahim Said Ahmad, Saminu Mohammad Aliyu, Nelson Odhiambo Onyango, Lilian D. A. Wanzare, Samuel Rutunda, Lukman Jibril Aliyu, Esubalew Alemneh, Oumaima Hourrane, Hagos Tesfahun Gebremichael, Elyas Abdi Ismail, Meriem Beloucif, Ebrahim Chekol Jibril, Andiswa Bukula, Rooweither Mabuya, Salomey Osei, Abigail Oppong, Tadesse Destaw Belay, Tadesse Kebede Guge, Tesfa Tegegne Asfaw, Chiamaka Ijeoma Chukwuneke, Paul Röttger, Seid Muhie Yimam, Nedjma Ousidhoum
cs.AI
Résumé
Les discours de haine et le langage abusif sont des phénomènes mondiaux qui nécessitent une connaissance du contexte socioculturel pour être compris, identifiés et modérés. Cependant, dans de nombreuses régions du Sud global, on a documenté plusieurs cas de (1) absence de modération et (2) censure en raison de la dépendance à la détection de mots-clés hors contexte. De plus, des personnalités de haut niveau ont fréquemment été au centre du processus de modération, tandis que de vastes campagnes de discours de haine ciblées contre les minorités ont été négligées. Ces limitations sont principalement dues au manque de données de haute qualité dans les langues locales et à l'omission des communautés locales dans les processus de collecte, d'annotation et de modération. Pour résoudre ce problème, nous présentons AfriHate : une collection multilingue de jeux de données sur les discours de haine et le langage abusif dans 15 langues africaines. Chaque instance dans AfriHate est annotée par des locuteurs natifs familiers de la culture locale. Nous rapportons les défis liés à la construction des jeux de données et présentons divers résultats de classification de base avec et sans utilisation de LLM (Language Model Models). Les jeux de données, les annotations individuelles et les lexiques de discours de haine et de langage offensant sont disponibles sur https://github.com/AfriHate/AfriHate
English
Hate speech and abusive language are global phenomena that need
socio-cultural background knowledge to be understood, identified, and
moderated. However, in many regions of the Global South, there have been
several documented occurrences of (1) absence of moderation and (2) censorship
due to the reliance on keyword spotting out of context. Further, high-profile
individuals have frequently been at the center of the moderation process, while
large and targeted hate speech campaigns against minorities have been
overlooked. These limitations are mainly due to the lack of high-quality data
in the local languages and the failure to include local communities in the
collection, annotation, and moderation processes. To address this issue, we
present AfriHate: a multilingual collection of hate speech and abusive language
datasets in 15 African languages. Each instance in AfriHate is annotated by
native speakers familiar with the local culture. We report the challenges
related to the construction of the datasets and present various classification
baseline results with and without using LLMs. The datasets, individual
annotations, and hate speech and offensive language lexicons are available on
https://github.com/AfriHate/AfriHate