ChatPaper.aiChatPaper

Au-delà de la compréhension : Évaluer l'écart pragmatique dans le traitement culturel du langage figuré par les LLM

Beyond Understanding: Evaluating the Pragmatic Gap in LLMs' Cultural Processing of Figurative Language

October 27, 2025
papers.authors: Mena Attia, Aashiq Muhamed, Mai Alkhamissi, Thamar Solorio, Mona Diab
cs.AI

papers.abstract

Nous présentons une évaluation complète de la capacité des grands modèles de langage (LLM) à traiter un langage culturellement ancré, notamment à comprendre et à utiliser de manière pragmatique des expressions figurées qui codent des connaissances locales et des nuances culturelles. En utilisant le langage figuré comme indicateur de la nuance culturelle et des connaissances locales, nous concevons des tâches d'évaluation pour la compréhension contextuelle, l'usage pragmatique et l'interprétation des connotations en arabe et en anglais. Nous évaluons 22 LLM open-source et privateurs sur des idiomes d'arabe égyptien, des proverbes arabes multidialectaux et des proverbes anglais. Nos résultats montrent une hiérarchie constante : la précision moyenne pour les proverbes arabes est inférieure de 4,29 % à celle des proverbes anglais, et les performances pour les idiomes égyptiens sont inférieures de 10,28 % à celles des proverbes arabes. Pour la tâche d'usage pragmatique, la précision chute de 14,07 % par rapport à la compréhension, bien que fournir des phrases contextuelles idiomatiques améliore la précision de 10,66 %. Les modèles éprouvent également des difficultés avec le sens connotatif, atteignant au maximum 85,58 % d'accord avec les annotateurs humains sur des idiomes présentant un accord inter-annotateurs de 100 %. Ces résultats démontrent que le langage figuré constitue un outil diagnostique efficace pour le raisonnement culturel : si les LLM peuvent souvent interpréter le sens figuré, ils rencontrent des difficultés à l'utiliser de manière appropriée. Pour soutenir les recherches futures, nous publions Kinayat, le premier jeu de données d'idiomes d'arabe égyptien conçu pour l'évaluation à la fois de la compréhension figurative et de l'usage pragmatique.
English
We present a comprehensive evaluation of the ability of large language models (LLMs) to process culturally grounded language, specifically to understand and pragmatically use figurative expressions that encode local knowledge and cultural nuance. Using figurative language as a proxy for cultural nuance and local knowledge, we design evaluation tasks for contextual understanding, pragmatic use, and connotation interpretation in Arabic and English. We evaluate 22 open- and closed-source LLMs on Egyptian Arabic idioms, multidialectal Arabic proverbs, and English proverbs. Our results show a consistent hierarchy: the average accuracy for Arabic proverbs is 4.29% lower than for English proverbs, and performance for Egyptian idioms is 10.28% lower than for Arabic proverbs. For the pragmatic use task, accuracy drops by 14.07% relative to understanding, though providing contextual idiomatic sentences improves accuracy by 10.66%. Models also struggle with connotative meaning, reaching at most 85.58% agreement with human annotators on idioms with 100% inter-annotator agreement. These findings demonstrate that figurative language serves as an effective diagnostic for cultural reasoning: while LLMs can often interpret figurative meaning, they face challenges in using it appropriately. To support future research, we release Kinayat, the first dataset of Egyptian Arabic idioms designed for both figurative understanding and pragmatic use evaluation.
PDF11December 1, 2025