Yor-Sarc: Um conjunto de dados de referência para detecção de sarcasmo em uma língua africana de baixos recursos

Resumo

A deteção de sarcasmo representa um desafio fundamental na semântica computacional, exigindo que os modelos resolvam as disparidades entre o significado literal e a intenção comunicativa. O desafio é amplificado em línguas com poucos recursos, onde conjuntos de dados anotados são escassos ou inexistentes. Apresentamos o Yor-Sarc, o primeiro conjunto de dados padrão-ouro para deteção de sarcasmo em Yorùbá, uma língua tonal do grupo Niger-Congo falada por mais de 50 milhões de pessoas. O conjunto de dados compreende 436 instâncias anotadas por três falantes nativos de origens dialetais diversas, utilizando um protocolo de anotação especificamente concebido para o sarcasmo em Yorùbá que tem em conta aspetos culturais. Este protocolo incorpora uma interpretação sensível ao contexto e diretrizes baseadas no conhecimento da comunidade, sendo acompanhado por uma análise abrangente do acordo interanotadores para apoiar a replicação noutras línguas africanas. Foi alcançado um acordo substancial a quase perfeito (κ de Fleiss = 0,7660; κ de Cohen pareado = 0,6732--0,8743), com 83,3% de consenso unânime. Um par de anotadores alcançou um acordo quase perfeito (κ = 0,8743; acordo bruto de 93,8%), superando vários benchmarks reportados em trabalhos de investigação sobre sarcasmo em inglês. Os restantes 16,7% de casos de acordo por maioria são preservados como etiquetas suaves (soft labels) para modelação consciente da incerteza. Espera-se que o Yor-Sarc (https://github.com/toheebadura/yor-sarc) facilite a investigação sobre interpretação semântica e PLN culturalmente informado para línguas africanas com poucos recursos.

English

Sarcasm detection poses a fundamental challenge in computational semantics, requiring models to resolve disparities between literal and intended meaning. The challenge is amplified in low-resource languages where annotated datasets are scarce or nonexistent. We present Yor-Sarc, the first gold-standard dataset for sarcasm detection in Yorùbá, a tonal Niger-Congo language spoken by over 50 million people. The dataset comprises 436 instances annotated by three native speakers from diverse dialectal backgrounds using an annotation protocol specifically designed for Yorùbá sarcasm by taking culture into account. This protocol incorporates context-sensitive interpretation and community-informed guidelines and is accompanied by a comprehensive analysis of inter-annotator agreement to support replication in other African languages. Substantial to almost perfect agreement was achieved (Fleiss' κ= 0.7660; pairwise Cohen's κ= 0.6732--0.8743), with 83.3% unanimous consensus. One annotator pair achieved almost perfect agreement (κ= 0.8743; 93.8% raw agreement), exceeding a number of reported benchmarks for English sarcasm research works. The remaining 16.7% majority-agreement cases are preserved as soft labels for uncertainty-aware modelling. Yor-Sarchttps://github.com/toheebadura/yor-sarc is expected to facilitate research on semantic interpretation and culturally informed NLP for low-resource African languages.