Yor-Sarc: Ein Goldstandard-Datensatz zur Sarkasmuserkennung in einer afrikanischen Sprache mit geringen Ressourcen
Yor-Sarc: A gold-standard dataset for sarcasm detection in a low-resource African language
February 21, 2026
papers.authors: Toheeb Aduramomi Jimoh, Tabea De Wille, Nikola S. Nikolov
cs.AI
papers.abstract
Die Erkennung von Sarkasmus stellt eine grundlegende Herausforderung in der computerlinguistischen Semantik dar, da Modelle die Diskrepanz zwischen wörtlicher und beabsichtigter Bedeutung auflösen müssen. Diese Herausforderung wird in ressourcenarmen Sprachen, in denen annotierte Datensätze knapp oder nicht vorhanden sind, noch verstärkt. Wir stellen Yor-Sarc vor, den ersten Goldstandard-Datensatz zur Sarkasmuserkennung in Yorùbá, einer tonale Niger-Kongo-Sprache, die von über 50 Millionen Menschen gesprochen wird. Der Datensatz umfasst 436 Instanzen, die von drei muttersprachlichen Annotatorinnen und Annotatoren mit unterschiedlichen dialektalen Hintergründen annotiert wurden. Dabei wurde ein Annotationsprotokoll verwendet, das speziell für Sarkasmus in Yorùbá unter Berücksichtigung kultureller Aspekte entwickelt wurde. Dieses Protokoll integriert kontextsensitive Interpretation und gemeinschaftsbasierte Richtlinien und wird von einer umfassenden Analyse der Inter-Annotator-Übereinstimmung begleitet, um die Replizierbarkeit in anderen afrikanischen Sprachen zu unterstützen. Es wurde eine substanzielle bis nahezu perfekte Übereinstimmung erzielt (Fleiss' κ=0,7660; paarweises Cohen's κ=0,6732–0,8743), wobei 83,3 % der Annotationen einstimmig waren. Ein Annotatorenpaar erreichte eine nahezu perfekte Übereinstimmung (κ=0,8743; 93,8 % Rohübereinstimmung), die eine Reihe berichteter Benchmarks aus englischsprachigen Sarkasmusforschungsarbeiten übertrifft. Die verbleibenden 16,7 % der Fälle mit Mehrheitsübereinstimmung werden als Soft Labels für unsicherheitsbewusste Modellierung erhalten. Yor-Sarc (https://github.com/toheebadura/yor-sarc) soll die Forschung zur semantischen Interpretation und kulturbewussten Sprachverarbeitung für ressourcenarme afrikanische Sprachen voranbringen.
English
Sarcasm detection poses a fundamental challenge in computational semantics, requiring models to resolve disparities between literal and intended meaning. The challenge is amplified in low-resource languages where annotated datasets are scarce or nonexistent. We present Yor-Sarc, the first gold-standard dataset for sarcasm detection in Yorùbá, a tonal Niger-Congo language spoken by over 50 million people. The dataset comprises 436 instances annotated by three native speakers from diverse dialectal backgrounds using an annotation protocol specifically designed for Yorùbá sarcasm by taking culture into account. This protocol incorporates context-sensitive interpretation and community-informed guidelines and is accompanied by a comprehensive analysis of inter-annotator agreement to support replication in other African languages. Substantial to almost perfect agreement was achieved (Fleiss' κ= 0.7660; pairwise Cohen's κ= 0.6732--0.8743), with 83.3% unanimous consensus. One annotator pair achieved almost perfect agreement (κ= 0.8743; 93.8% raw agreement), exceeding a number of reported benchmarks for English sarcasm research works. The remaining 16.7% majority-agreement cases are preserved as soft labels for uncertainty-aware modelling. Yor-Sarchttps://github.com/toheebadura/yor-sarc is expected to facilitate research on semantic interpretation and culturally informed NLP for low-resource African languages.