Yor-Sarc: Un conjunto de datos de referencia para la detección de sarcasmo en un idioma africano de bajos recursos

Resumen

La detección de sarcasmo representa un desafío fundamental en la semántica computacional, ya que requiere que los modelos resuelvan las disparidades entre el significado literal y la intención comunicativa. Este desafío se amplifica en lenguas de recursos limitados donde los conjuntos de datos anotados son escasos o inexistentes. Presentamos Yor-Sarc, el primer conjunto de datos de referencia para la detección de sarcasmo en yorùbá, una lengua tonal de la familia Níger-Congo hablada por más de 50 millones de personas. El conjunto de datos comprende 436 instancias anotadas por tres hablantes nativos de diversos antecedentes dialectales, utilizando un protocolo de anotación específicamente diseñado para el sarcasmo en yorùbá que considera aspectos culturales. Este protocolo incorpora una interpretación sensible al contexto y directrices informadas por la comunidad, y está acompañado de un análisis exhaustivo del acuerdo interanotador para apoyar la replicación en otras lenguas africanas. Se logró un acuerdo sustancial a casi perfecto (κ de Fleiss = 0.7660; κ de Cohen por pares = 0.6732–0.8743), con un 83.3% de consenso unánime. Un par de anotadores alcanzó un acuerdo casi perfecto (κ = 0.8743; acuerdo bruto del 93.8%), superando varios referentes reportados en investigaciones sobre sarcasmo en inglés. El 16.7% restante de casos con acuerdo mayoritario se conserva como etiquetas blandas para modelado consciente de la incertidumbre. Se espera que Yor-Sarc https://github.com/toheebadura/yor-sarc facilite la investigación sobre interpretación semántica y PLN culturalmente informado para lenguas africanas de recursos limitados.

English

Sarcasm detection poses a fundamental challenge in computational semantics, requiring models to resolve disparities between literal and intended meaning. The challenge is amplified in low-resource languages where annotated datasets are scarce or nonexistent. We present Yor-Sarc, the first gold-standard dataset for sarcasm detection in Yorùbá, a tonal Niger-Congo language spoken by over 50 million people. The dataset comprises 436 instances annotated by three native speakers from diverse dialectal backgrounds using an annotation protocol specifically designed for Yorùbá sarcasm by taking culture into account. This protocol incorporates context-sensitive interpretation and community-informed guidelines and is accompanied by a comprehensive analysis of inter-annotator agreement to support replication in other African languages. Substantial to almost perfect agreement was achieved (Fleiss' κ= 0.7660; pairwise Cohen's κ= 0.6732--0.8743), with 83.3% unanimous consensus. One annotator pair achieved almost perfect agreement (κ= 0.8743; 93.8% raw agreement), exceeding a number of reported benchmarks for English sarcasm research works. The remaining 16.7% majority-agreement cases are preserved as soft labels for uncertainty-aware modelling. Yor-Sarchttps://github.com/toheebadura/yor-sarc is expected to facilitate research on semantic interpretation and culturally informed NLP for low-resource African languages.

Yor-Sarc: Un conjunto de datos de referencia para la detección de sarcasmo en un idioma africano de bajos recursos

Yor-Sarc: A gold-standard dataset for sarcasm detection in a low-resource African language

Resumen

Support