Yor-Sarc: Un dataset di riferimento per il rilevamento della sarcasmo in una lingua africana a risorse limitate

Abstract

La rilevazione del sarcasmo rappresenta una sfida fondamentale nella semantica computazionale, poiché richiede ai modelli di risolvere le discrepanze tra significato letterale e intenzione comunicativa. La sfida è amplificata nelle lingue a bassa risorsa, dove i dataset annotati sono scarsi o inesistenti. Presentiamo Yor-Sarc, il primo dataset gold standard per la rilevazione del sarcasmo in Yorùbá, una lingua tonale del ceppo Niger-Congo parlata da oltre 50 milioni di persone. Il dataset comprende 436 istanze annotate da tre parlanti nativi con background dialettali diversi, utilizzando un protocollo di annotazione specificamente progettato per il sarcasmo in Yorùbá che tiene conto degli aspetti culturali. Questo protocollo incorpora un'interpretazione sensibile al contesto e linee guida informate dalla comunità, ed è accompagnato da un'analisi completa dell'accordo inter-annotatore per supportare la replicabilità in altre lingue africane. È stato ottenuto un accordo da sostanziale a quasi perfetto (κ di Fleiss = 0,7660; κ di Cohen a coppie = 0,6732–0,8743), con un consenso unanime dell'83,3%. Una coppia di annotatori ha raggiunto un accordo quasi perfetto (κ = 0,8743; accordo grezzo del 93,8%), superando numerosi benchmark riportati nella ricerca sul sarcasmo in inglese. I rimanenti casi di accordo a maggioranza (16,7%) sono preservati come etichette soft per una modellazione consapevole dell'incertezza. Si prevede che Yor-Sarc (https://github.com/toheebadura/yor-sarc) favorirà la ricerca sull'interpretazione semantica e sull'elaborazione del linguaggio naturale culturalmente informata per le lingue africane a bassa risorsa.

English

Sarcasm detection poses a fundamental challenge in computational semantics, requiring models to resolve disparities between literal and intended meaning. The challenge is amplified in low-resource languages where annotated datasets are scarce or nonexistent. We present Yor-Sarc, the first gold-standard dataset for sarcasm detection in Yorùbá, a tonal Niger-Congo language spoken by over 50 million people. The dataset comprises 436 instances annotated by three native speakers from diverse dialectal backgrounds using an annotation protocol specifically designed for Yorùbá sarcasm by taking culture into account. This protocol incorporates context-sensitive interpretation and community-informed guidelines and is accompanied by a comprehensive analysis of inter-annotator agreement to support replication in other African languages. Substantial to almost perfect agreement was achieved (Fleiss' κ= 0.7660; pairwise Cohen's κ= 0.6732--0.8743), with 83.3% unanimous consensus. One annotator pair achieved almost perfect agreement (κ= 0.8743; 93.8% raw agreement), exceeding a number of reported benchmarks for English sarcasm research works. The remaining 16.7% majority-agreement cases are preserved as soft labels for uncertainty-aware modelling. Yor-Sarchttps://github.com/toheebadura/yor-sarc is expected to facilitate research on semantic interpretation and culturally informed NLP for low-resource African languages.

Yor-Sarc: Un dataset di riferimento per il rilevamento della sarcasmo in una lingua africana a risorse limitate

Yor-Sarc: A gold-standard dataset for sarcasm detection in a low-resource African language

Abstract

Support