ChatPaper.aiChatPaper

Más allá de la comprensión: Evaluación de la brecha pragmática en el procesamiento cultural del lenguaje figurado por parte de los LLM

Beyond Understanding: Evaluating the Pragmatic Gap in LLMs' Cultural Processing of Figurative Language

October 27, 2025
Autores: Mena Attia, Aashiq Muhamed, Mai Alkhamissi, Thamar Solorio, Mona Diab
cs.AI

Resumen

Presentamos una evaluación exhaustiva de la capacidad de los modelos de lenguaje grandes (LLM) para procesar lenguaje culturalmente arraigado, específicamente para comprender y utilizar de manera pragmática expresiones figurativas que codifican conocimiento local y matices culturales. Utilizando el lenguaje figurativo como proxy del matiz cultural y el conocimiento local, diseñamos tareas de evaluación para la comprensión contextual, el uso pragmático y la interpretación de connotaciones en árabe e inglés. Evaluamos 22 LLM, tanto de código abierto como cerrado, en refranes egipcios, proverbios árabes multidialectales y proverbios ingleses. Nuestros resultados muestran una jerarquía consistente: la precisión promedio para los proverbios árabes es un 4.29% inferior a la de los proverbios ingleses, y el rendimiento para los modismos egipcios es un 10.28% inferior al de los proverbios árabes. Para la tarea de uso pragmático, la precisión disminuye en un 14.07% en relación con la comprensión, aunque proporcionar oraciones idiomáticas contextuales mejora la precisión en un 10.66%. Los modelos también tienen dificultades con el significado connotativo, alcanzando como máximo un 85.58% de concordancia con los anotadores humanos en modismos con un 100% de acuerdo entre anotadores. Estos hallazgos demuestran que el lenguaje figurativo sirve como un diagnóstico efectivo para el razonamiento cultural: si bien los LLM a menudo pueden interpretar el significado figurativo, enfrentan desafíos para usarlo apropiadamente. Para apoyar la investigación futura, publicamos Kinayat, el primer conjunto de datos de modismos del árabe egipcio diseñado tanto para la evaluación de la comprensión figurativa como del uso pragmático.
English
We present a comprehensive evaluation of the ability of large language models (LLMs) to process culturally grounded language, specifically to understand and pragmatically use figurative expressions that encode local knowledge and cultural nuance. Using figurative language as a proxy for cultural nuance and local knowledge, we design evaluation tasks for contextual understanding, pragmatic use, and connotation interpretation in Arabic and English. We evaluate 22 open- and closed-source LLMs on Egyptian Arabic idioms, multidialectal Arabic proverbs, and English proverbs. Our results show a consistent hierarchy: the average accuracy for Arabic proverbs is 4.29% lower than for English proverbs, and performance for Egyptian idioms is 10.28% lower than for Arabic proverbs. For the pragmatic use task, accuracy drops by 14.07% relative to understanding, though providing contextual idiomatic sentences improves accuracy by 10.66%. Models also struggle with connotative meaning, reaching at most 85.58% agreement with human annotators on idioms with 100% inter-annotator agreement. These findings demonstrate that figurative language serves as an effective diagnostic for cultural reasoning: while LLMs can often interpret figurative meaning, they face challenges in using it appropriately. To support future research, we release Kinayat, the first dataset of Egyptian Arabic idioms designed for both figurative understanding and pragmatic use evaluation.
PDF11December 1, 2025