Yor-Sarc : Un jeu de données de référence pour la détection du sarcasme dans une langue africaine peu dotée

Résumé

La détection du sarcasme représente un défi fondamental en sémantique computationnelle, nécessitant que les modèles résolvent les disparités entre le sens littéral et l'intention. Ce défi est amplifié dans les langues peu dotées où les jeux de données annotés sont rares ou inexistants. Nous présentons Yor-Sarc, le premier jeu de données de référence pour la détection du sarcasme en yorùbá, une langue tonale nigéro-congolaise parlée par plus de 50 millions de personnes. Le jeu de données comprend 436 instances annotées par trois locuteurs natifs de divers horizons dialectaux, en utilisant un protocole d'annotation spécifiquement conçu pour le sarcasme en yorùbá en prenant en compte la culture. Ce protocole intègre une interpretation sensible au contexte et des lignes directrices éclairées par la communauté, et est accompagné d'une analyse complète de l'accord inter-annotateurs pour soutenir la réplication dans d'autres langues africaines. Un accord substantiel à presque parfait a été atteint (κ de Fleiss = 0,7660 ; κ de Cohen par paire = 0,6732–0,8743), avec un consensus unanime de 83,3 %. Une paire d'annotateurs a atteint un accord presque parfait (κ = 0,8743 ; accord brut de 93,8 %), dépassant un certain nombre de références rapportées dans les travaux de recherche sur le sarcasme en anglais. Les 16,7 % restants de cas d'accord majoritaire sont conservés comme étiquettes souples pour une modélisation prenant en compte l'incertitude. Yor-Sarc (https://github.com/toheebadura/yor-sarc) devrait faciliter la recherche sur l'interprétation sémantique et le TAL éclairé culturellement pour les langues africaines peu dotées.

English

Sarcasm detection poses a fundamental challenge in computational semantics, requiring models to resolve disparities between literal and intended meaning. The challenge is amplified in low-resource languages where annotated datasets are scarce or nonexistent. We present Yor-Sarc, the first gold-standard dataset for sarcasm detection in Yorùbá, a tonal Niger-Congo language spoken by over 50 million people. The dataset comprises 436 instances annotated by three native speakers from diverse dialectal backgrounds using an annotation protocol specifically designed for Yorùbá sarcasm by taking culture into account. This protocol incorporates context-sensitive interpretation and community-informed guidelines and is accompanied by a comprehensive analysis of inter-annotator agreement to support replication in other African languages. Substantial to almost perfect agreement was achieved (Fleiss' κ= 0.7660; pairwise Cohen's κ= 0.6732--0.8743), with 83.3% unanimous consensus. One annotator pair achieved almost perfect agreement (κ= 0.8743; 93.8% raw agreement), exceeding a number of reported benchmarks for English sarcasm research works. The remaining 16.7% majority-agreement cases are preserved as soft labels for uncertainty-aware modelling. Yor-Sarchttps://github.com/toheebadura/yor-sarc is expected to facilitate research on semantic interpretation and culturally informed NLP for low-resource African languages.

Yor-Sarc : Un jeu de données de référence pour la détection du sarcasme dans une langue africaine peu dotée

Yor-Sarc: A gold-standard dataset for sarcasm detection in a low-resource African language

Résumé

Support