Yor-Sarc: Золотой стандарт набора данных для обнаружения сарказма в малоресурсном африканском языке

Аннотация

Распознавание сарказма представляет собой фундаментальную проблему в вычислительной семантике, требующую от моделей разрешения расхождений между буквальным и подразумеваемым значением. Эта задача усложняется для малосегментированных языков, где размеченные наборы данных稀缺ны или отсутствуют. Мы представляем Yor-Sarc, первый золотой стандарт набора данных для обнаружения сарказма на языке йоруба, тональном языке нигеро-конголезской семьи, на котором говорят более 50 миллионов человек. Набор данных включает 436 примеров, размеченных тремя носителями языка из различных диалектных групп с использованием протокола разметки, специально разработанного для йорубского сарказма с учетом культурных особенностей. Данный протокол включает контекстно-зависимую интерпретацию и основанные на знаниях сообщества рекомендации, а также сопровождается всесторонним анализом согласованности между аннотаторами для поддержки воспроизведения в других африканских языках. Было достигнуто существенное или почти полное согласие (каппа Флейсса κ=0,7660; попарная каппа Кохена κ=0,6732–0,8743) с 83,3% единогласного консенсуса. Одна пара аннотаторов достигла почти полного согласия (κ=0,8743; 93,8% сырого согласия), превзойдя ряд заявленных ориентиров для исследований сарказма в английском языке. Оставшиеся 16,7% случаев согласия большинства сохранены в виде мягких меток для моделирования с учетом неопределенности. Ожидается, что Yor-Sarchttps://github.com/toheebadura/yor-sarc будет способствовать исследованиям в области семантической интерпретации и культурно-ориентированной обработки естественного языка для малосегментированных африканских языков.

English

Sarcasm detection poses a fundamental challenge in computational semantics, requiring models to resolve disparities between literal and intended meaning. The challenge is amplified in low-resource languages where annotated datasets are scarce or nonexistent. We present Yor-Sarc, the first gold-standard dataset for sarcasm detection in Yorùbá, a tonal Niger-Congo language spoken by over 50 million people. The dataset comprises 436 instances annotated by three native speakers from diverse dialectal backgrounds using an annotation protocol specifically designed for Yorùbá sarcasm by taking culture into account. This protocol incorporates context-sensitive interpretation and community-informed guidelines and is accompanied by a comprehensive analysis of inter-annotator agreement to support replication in other African languages. Substantial to almost perfect agreement was achieved (Fleiss' κ= 0.7660; pairwise Cohen's κ= 0.6732--0.8743), with 83.3% unanimous consensus. One annotator pair achieved almost perfect agreement (κ= 0.8743; 93.8% raw agreement), exceeding a number of reported benchmarks for English sarcasm research works. The remaining 16.7% majority-agreement cases are preserved as soft labels for uncertainty-aware modelling. Yor-Sarchttps://github.com/toheebadura/yor-sarc is expected to facilitate research on semantic interpretation and culturally informed NLP for low-resource African languages.

Yor-Sarc: Золотой стандарт набора данных для обнаружения сарказма в малоресурсном африканском языке

Yor-Sarc: A gold-standard dataset for sarcasm detection in a low-resource African language

Аннотация

Support