ChatPaper.aiChatPaper

Yor-Sarc: 低リソースアフリカ言語における皮肉検出のためのゴールドスタンダードデータセット

Yor-Sarc: A gold-standard dataset for sarcasm detection in a low-resource African language

February 21, 2026
著者: Toheeb Aduramomi Jimoh, Tabea De Wille, Nikola S. Nikolov
cs.AI

要旨

皮肉検出は計算意味論における根本的な課題であり、文字通りの意味と意図された意味の乖離を解決するモデルを必要とする。この課題は、注釈付きデータセットが乏しいか存在しない低リソース言語では一層深刻である。本論文では、5,000万人以上に話される声調言語であるニジェール・コンゴ語群のヨルバ語における、初のゴールドスタンダード皮肉検出データセット「Yor-Sarc」を提案する。このデータセットは、文化を考慮して特別に設計されたヨルバ語の皮肉注釈プロトコルを用いて、異なる方言背景を持つ3名のネイティブスピーカーによって注釈が付けられた436事例で構成される。このプロトコルは、文脈に敏感な解釈とコミュニティに基づくガイドラインを組み込んでおり、他のアフリカ言語への応用を支援するため、注釈者間一致率の包括的分析を伴う。実質的からほぼ完全に近い一致率(Fleiss' κ=0.7660、ペアワイズCohen's κ=0.6732~0.8743)が達成され、83.3%で完全一致が得られた。一つの注釈者ペアはほぼ完全な一致(κ=0.8743、生一致率93.8%)を達成し、英語の皮肉研究で報告されている多くのベンチマークを上回った。残り16.7%の多数決一致事例は、不確実性を考慮したモデリングのためのソフトラベルとして保存されている。Yor-Sarc(https://github.com/toheebadura/yor-sarc)は、低リソースのアフリカ言語における意味解釈と文化を考慮した自然言語処理の研究を促進することが期待される。
English
Sarcasm detection poses a fundamental challenge in computational semantics, requiring models to resolve disparities between literal and intended meaning. The challenge is amplified in low-resource languages where annotated datasets are scarce or nonexistent. We present Yor-Sarc, the first gold-standard dataset for sarcasm detection in Yorùbá, a tonal Niger-Congo language spoken by over 50 million people. The dataset comprises 436 instances annotated by three native speakers from diverse dialectal backgrounds using an annotation protocol specifically designed for Yorùbá sarcasm by taking culture into account. This protocol incorporates context-sensitive interpretation and community-informed guidelines and is accompanied by a comprehensive analysis of inter-annotator agreement to support replication in other African languages. Substantial to almost perfect agreement was achieved (Fleiss' κ= 0.7660; pairwise Cohen's κ= 0.6732--0.8743), with 83.3% unanimous consensus. One annotator pair achieved almost perfect agreement (κ= 0.8743; 93.8% raw agreement), exceeding a number of reported benchmarks for English sarcasm research works. The remaining 16.7% majority-agreement cases are preserved as soft labels for uncertainty-aware modelling. Yor-Sarchttps://github.com/toheebadura/yor-sarc is expected to facilitate research on semantic interpretation and culturally informed NLP for low-resource African languages.
PDF02February 27, 2026