Yor-Sarc: Een gouden-standaard dataset voor sarcasmedetectie in een Afrikaanse taal met beperkte middelen

Samenvatting

Sarcasmedetectie vormt een fundamentele uitdaging in de computationele semantiek, waarbij modellen tegenstellingen tussen letterlijke en bedoelde betekenis moeten oplossen. De uitdaging wordt vergroot in talen met weinig bronnen, waar geannoteerde datasets schaars of niet-bestaand zijn. Wij presenteren Yor-Sarc, de eerste gouden-standaarddataset voor sarcasmedetectie in het Yorùbá, een tonale Niger-Congotaal die door meer dan 50 miljoen mensen wordt gesproken. De dataset omvat 436 instanties, geannoteerd door drie moedertaalsprekers met diverse dialectachtergronden, met behulp van een annotatieprotocol dat specifiek is ontworpen voor Yorùbá-sarcasme door cultuur in acht te nemen. Dit protocol omvat contextgevoelige interpretatie en door de gemeenschap geïnformeerde richtlijnen, en wordt vergezeld door een uitgebreide analyse van de interbeoordelaarsbetrouwbaarheid om replicatie in andere Afrikaanse talen te ondersteunen. Er werd een aanzienlijke tot bijna perfecte overeenstemming bereikt (Fleiss' κ=0,7660; paarsgewijze Cohen's κ=0,6732–0,8743), met 83,3% unanieme consensus. Eén paar annotatoren bereikte bijna perfecte overeenstemming (κ=0,8743; 93,8% ruwe overeenstemming), wat een aantal gerapporteerde benchmarks voor Engels sarcasmeonderzoek overtreft. De overige 16,7% meerderheidsovereenstemmingsgevallen worden bewaard als zachte labels voor onzekerheidsbewuste modellering. Yor-Sarc (https://github.com/toheebadura/yor-sarc) wordt verwacht onderzoek te vergemakkelijken naar semantische interpretatie en cultureel geïnformeerde NLP voor Afrikaanse talen met weinig bronnen.

English

Sarcasm detection poses a fundamental challenge in computational semantics, requiring models to resolve disparities between literal and intended meaning. The challenge is amplified in low-resource languages where annotated datasets are scarce or nonexistent. We present Yor-Sarc, the first gold-standard dataset for sarcasm detection in Yorùbá, a tonal Niger-Congo language spoken by over 50 million people. The dataset comprises 436 instances annotated by three native speakers from diverse dialectal backgrounds using an annotation protocol specifically designed for Yorùbá sarcasm by taking culture into account. This protocol incorporates context-sensitive interpretation and community-informed guidelines and is accompanied by a comprehensive analysis of inter-annotator agreement to support replication in other African languages. Substantial to almost perfect agreement was achieved (Fleiss' κ= 0.7660; pairwise Cohen's κ= 0.6732--0.8743), with 83.3% unanimous consensus. One annotator pair achieved almost perfect agreement (κ= 0.8743; 93.8% raw agreement), exceeding a number of reported benchmarks for English sarcasm research works. The remaining 16.7% majority-agreement cases are preserved as soft labels for uncertainty-aware modelling. Yor-Sarchttps://github.com/toheebadura/yor-sarc is expected to facilitate research on semantic interpretation and culturally informed NLP for low-resource African languages.

Yor-Sarc: Een gouden-standaard dataset voor sarcasmedetectie in een Afrikaanse taal met beperkte middelen

Yor-Sarc: A gold-standard dataset for sarcasm detection in a low-resource African language

Samenvatting

Support