AfriHate: Een Meertalige Verzameling van Haatspraak en Beledigende Taal Datasets voor Afrikaanse Talen

Samenvatting

Haatzaaien en beledigende taal zijn wereldwijde fenomenen die sociaal-culturele achtergrondkennis vereisen om begrepen, geïdentificeerd en gemodereerd te worden. Echter, in veel regio's van de Global South zijn verschillende gedocumenteerde gevallen van (1) afwezigheid van moderatie en (2) censuur voorgekomen als gevolg van het vertrouwen op trefwoordherkenning buiten de context. Bovendien zijn prominente personen vaak het middelpunt van het moderatieproces geweest, terwijl grootschalige en gerichte haatzaaicampagnes tegen minderheden over het hoofd zijn gezien. Deze beperkingen zijn voornamelijk te wijten aan het gebrek aan hoogwaardige gegevens in de lokale talen en het verzuim om lokale gemeenschappen te betrekken bij het verzamelen, annoteren en modereren van gegevens. Om dit probleem aan te pakken, presenteren we AfriHate: een meertalige verzameling van datasets met haatzaaien en beledigende taal in 15 Afrikaanse talen. Elke instantie in AfriHate is geannoteerd door moedertaalsprekers die bekend zijn met de lokale cultuur. We rapporteren de uitdagingen met betrekking tot de constructie van de datasets en presenteren verschillende baselines voor classificatie met en zonder het gebruik van LLM's. De datasets, individuele annotaties en lexicons van haatzaaien en beledigende taal zijn beschikbaar op https://github.com/AfriHate/AfriHate

English

Hate speech and abusive language are global phenomena that need socio-cultural background knowledge to be understood, identified, and moderated. However, in many regions of the Global South, there have been several documented occurrences of (1) absence of moderation and (2) censorship due to the reliance on keyword spotting out of context. Further, high-profile individuals have frequently been at the center of the moderation process, while large and targeted hate speech campaigns against minorities have been overlooked. These limitations are mainly due to the lack of high-quality data in the local languages and the failure to include local communities in the collection, annotation, and moderation processes. To address this issue, we present AfriHate: a multilingual collection of hate speech and abusive language datasets in 15 African languages. Each instance in AfriHate is annotated by native speakers familiar with the local culture. We report the challenges related to the construction of the datasets and present various classification baseline results with and without using LLMs. The datasets, individual annotations, and hate speech and offensive language lexicons are available on https://github.com/AfriHate/AfriHate

AfriHate: Een Meertalige Verzameling van Haatspraak en Beledigende Taal Datasets voor Afrikaanse Talen

AfriHate: A Multilingual Collection of Hate Speech and Abusive Language Datasets for African Languages

Samenvatting

Support