Yor-Sarc: 저자원 아프리카 언어에서 비속어 감지를 위한 골드 스탠더드 데이터셋
Yor-Sarc: A gold-standard dataset for sarcasm detection in a low-resource African language
February 21, 2026
저자: Toheeb Aduramomi Jimoh, Tabea De Wille, Nikola S. Nikolov
cs.AI
초록
풍자 감지는 문자적 의미와 의도된 의미 간의 차이를 해결해야 하므로 계산 의미론에서 근본적인 과제로 대두됩니다. 이 과제는 주석이 달린 데이터셋이 부족하거나 존재하지 않는 저자원 언어에서는 더욱 복잡해집니다. 본 논문에서는 5천만 명 이상이 사용하는 성조계 니제르-콩고어인 요루바어의 풍자 감지를 위한 최초의 골드 스탠더드 데이터셋인 Yor-Sarc를 소개합니다. 이 데이터셋은 문화적 맥락을 고려하여 요루바어 풍자에 특화된 주석 프로토콜을 통해 다양한 방언 배경을 가진 세 명의 원어민이 주석을 단 436개의 인스턴스로 구성됩니다. 해당 프로토콜은 맥락에 민감한 해석과 지역사회 기반 지침을 포함하며, 다른 아프리카 언어로의 재현을 지원하기 위해 주석자 간 일치도에 대한 포괄적인 분석을 동반합니다. 상당한 수준에서 거의 완벽에 가까운 일치도(Fleiss' κ=0.7660; pairwise Cohen's κ=0.6732–0.8743)가 달성되었으며, 83.3%에서 만장일치를 보였습니다. 한 주석자 쌍은 거의 완벽한 일치도(κ=0.8743; 원본 일치도 93.8%)를 달성하여 영어 풍자 연구에서 보고된 여러 벤치마크를 넘어섰습니다. 나머지 16.7%의 다수 합의 사례는 불확실성 인지 모델링을 위한 소프트 레이블로 보존됩니다. Yor-Sarc(https://github.com/toheebadura/yor-sarc)는 저자원 아프리카 언어에 대한 의미론적 해석 및 문화 기반 자연어 처리 연구의 촉진이 기대됩니다.
English
Sarcasm detection poses a fundamental challenge in computational semantics, requiring models to resolve disparities between literal and intended meaning. The challenge is amplified in low-resource languages where annotated datasets are scarce or nonexistent. We present Yor-Sarc, the first gold-standard dataset for sarcasm detection in Yorùbá, a tonal Niger-Congo language spoken by over 50 million people. The dataset comprises 436 instances annotated by three native speakers from diverse dialectal backgrounds using an annotation protocol specifically designed for Yorùbá sarcasm by taking culture into account. This protocol incorporates context-sensitive interpretation and community-informed guidelines and is accompanied by a comprehensive analysis of inter-annotator agreement to support replication in other African languages. Substantial to almost perfect agreement was achieved (Fleiss' κ= 0.7660; pairwise Cohen's κ= 0.6732--0.8743), with 83.3% unanimous consensus. One annotator pair achieved almost perfect agreement (κ= 0.8743; 93.8% raw agreement), exceeding a number of reported benchmarks for English sarcasm research works. The remaining 16.7% majority-agreement cases are preserved as soft labels for uncertainty-aware modelling. Yor-Sarchttps://github.com/toheebadura/yor-sarc is expected to facilitate research on semantic interpretation and culturally informed NLP for low-resource African languages.