Voorbij het Begrip: Evaluatie van de Pragmatische Kloof in de Culturele Verwerking van Figuurlijke Taal door LLM's
Beyond Understanding: Evaluating the Pragmatic Gap in LLMs' Cultural Processing of Figurative Language
October 27, 2025
Auteurs: Mena Attia, Aashiq Muhamed, Mai Alkhamissi, Thamar Solorio, Mona Diab
cs.AI
Samenvatting
Wij presenteren een uitgebreide evaluatie van het vermogen van grote taalmodellen (LLM's) om cultureel verankerde taal te verwerken, in het bijzonder om figuurlijke uitdrukkingen die lokale kennis en culturele nuance coderen, te begrijpen en pragmatisch te gebruiken. Door figuurlijke taal als indicator te gebruiken voor culturele nuance en lokale kennis, ontwerpen we evaluatietaken voor contextueel begrip, pragmatisch gebruik en connotatie-interpretatie in het Arabisch en Engels. We evalueren 22 open-source en closed-source LLM's op Egyptisch-Arabische idiomen, multi-dialectale Arabische spreekwoorden en Engelse spreekwoorden. Onze resultaten tonen een consistente hiërarchie: de gemiddelde nauwkeurigheid voor Arabische spreekwoorden ligt 4,29% lager dan voor Engelse spreekwoorden, en de prestatie voor Egyptische idiomen is 10,28% lager dan voor Arabische spreekwoorden. Voor de taak van pragmatisch gebruik daalt de nauwkeurigheid met 14,07% ten opzichte van begrip, hoewel het verstrekken van contextuele idiomatische zinnen de nauwkeurigheid met 10,66% verbetert. Modellen hebben ook moeite met connotatieve betekenis en bereiken hooguit 85,58% overeenstemming met menselijke annotatoren voor idiomen met 100% inter-beoordelaarsbetrouwbaarheid. Deze bevindingen tonen aan dat figuurlijke taal een effectieve diagnostische tool is voor cultureel redeneren: hoewel LLM's vaak figuurlijke betekenis kunnen interpreteren, lopen zij tegen uitdagingen aan bij het gepast gebruik ervan. Om toekomstig onderzoek te ondersteunen, publiceren wij Kinayat, de eerste dataset van Egyptisch-Arabische idiomen die ontworpen is voor zowel de evaluatie van figuurlijk begrip als van pragmatisch gebruik.
English
We present a comprehensive evaluation of the ability of large language models
(LLMs) to process culturally grounded language, specifically to understand and
pragmatically use figurative expressions that encode local knowledge and
cultural nuance. Using figurative language as a proxy for cultural nuance and
local knowledge, we design evaluation tasks for contextual understanding,
pragmatic use, and connotation interpretation in Arabic and English. We
evaluate 22 open- and closed-source LLMs on Egyptian Arabic idioms,
multidialectal Arabic proverbs, and English proverbs. Our results show a
consistent hierarchy: the average accuracy for Arabic proverbs is 4.29% lower
than for English proverbs, and performance for Egyptian idioms is 10.28% lower
than for Arabic proverbs. For the pragmatic use task, accuracy drops by 14.07%
relative to understanding, though providing contextual idiomatic sentences
improves accuracy by 10.66%. Models also struggle with connotative meaning,
reaching at most 85.58% agreement with human annotators on idioms with 100%
inter-annotator agreement. These findings demonstrate that figurative language
serves as an effective diagnostic for cultural reasoning: while LLMs can often
interpret figurative meaning, they face challenges in using it appropriately.
To support future research, we release Kinayat, the first dataset of Egyptian
Arabic idioms designed for both figurative understanding and pragmatic use
evaluation.