Jenseits des Verständnisses: Evaluation der pragmatischen Lücke in der kulturellen Verarbeitung figurativer Sprache durch LLMs
Beyond Understanding: Evaluating the Pragmatic Gap in LLMs' Cultural Processing of Figurative Language
October 27, 2025
papers.authors: Mena Attia, Aashiq Muhamed, Mai Alkhamissi, Thamar Solorio, Mona Diab
cs.AI
papers.abstract
Wir präsentieren eine umfassende Evaluation der Fähigkeit großer Sprachmodelle (LLMs), kulturell verwurzelte Sprache zu verarbeiten, insbesondere um figurative Ausdrücke, die lokales Wissen und kulturelle Nuancen kodieren, zu verstehen und pragmatisch zu verwenden. Indem wir figurative Sprache als Stellvertreter für kulturelle Nuancen und lokales Wissen nutzen, entwerfen wir Evaluierungsaufgaben für kontextuelles Verständnis, pragmatische Verwendung und Konnotationsinterpretation im Arabischen und Englischen. Wir evaluieren 22 Open-Source- und Closed-Source-LLMs anhand ägyptisch-arabischer Redewendungen, mehrdialektaler arabischer Sprichwörter und englischer Sprichwörter. Unsere Ergebnisse zeigen eine konsistente Hierarchie: Die durchschnittliche Genauigkeit für arabische Sprichwörter liegt 4,29 % niedriger als für englische Sprichwörter, und die Leistung bei ägyptischen Redewendungen ist 10,28 % niedriger als bei arabischen Sprichwörtern. Bei der pragmatischen Anwendungsaufgabe sinkt die Genauigkeit um 14,07 % im Vergleich zum Verständnis, obwohl das Bereitstellen kontextueller idiomatischer Sätze die Genauigkeit um 10,66 % verbessert. Modelle haben auch Schwierigkeiten mit konnotativer Bedeutung und erreichen maximal 85,58 % Übereinstimmung mit menschlichen Annotatoren bei Redewendungen mit 100 % Inter-Annotator-Übereinstimmung. Diese Ergebnisse demonstrieren, dass figurative Sprache als effektive Diagnose für kulturelles Reasoning dient: Während LLMs oft figurative Bedeutung interpretieren können, stehen sie vor Herausforderungen bei deren angemessener Verwendung. Um zukünftige Forschung zu unterstützen, veröffentlichen wir Kinayat, den ersten Datensatz ägyptisch-arabischer Redewendungen, der sowohl für das Evaluieren des figurativen Verständnisses als auch der pragmatischen Anwendung konzipiert ist.
English
We present a comprehensive evaluation of the ability of large language models
(LLMs) to process culturally grounded language, specifically to understand and
pragmatically use figurative expressions that encode local knowledge and
cultural nuance. Using figurative language as a proxy for cultural nuance and
local knowledge, we design evaluation tasks for contextual understanding,
pragmatic use, and connotation interpretation in Arabic and English. We
evaluate 22 open- and closed-source LLMs on Egyptian Arabic idioms,
multidialectal Arabic proverbs, and English proverbs. Our results show a
consistent hierarchy: the average accuracy for Arabic proverbs is 4.29% lower
than for English proverbs, and performance for Egyptian idioms is 10.28% lower
than for Arabic proverbs. For the pragmatic use task, accuracy drops by 14.07%
relative to understanding, though providing contextual idiomatic sentences
improves accuracy by 10.66%. Models also struggle with connotative meaning,
reaching at most 85.58% agreement with human annotators on idioms with 100%
inter-annotator agreement. These findings demonstrate that figurative language
serves as an effective diagnostic for cultural reasoning: while LLMs can often
interpret figurative meaning, they face challenges in using it appropriately.
To support future research, we release Kinayat, the first dataset of Egyptian
Arabic idioms designed for both figurative understanding and pragmatic use
evaluation.