ChatPaper.aiChatPaper

Oltre la comprensione: Valutare il divario pragmatico nell'elaborazione culturale del linguaggio figurativo da parte degli LLM

Beyond Understanding: Evaluating the Pragmatic Gap in LLMs' Cultural Processing of Figurative Language

October 27, 2025
Autori: Mena Attia, Aashiq Muhamed, Mai Alkhamissi, Thamar Solorio, Mona Diab
cs.AI

Abstract

Presentiamo una valutazione completa della capacità dei modelli linguistici di grandi dimensioni (LLM) di elaborare un linguaggio culturalmente radicato, in particolare di comprendere e utilizzare pragmaticamente espressioni figurative che codificano conoscenze locali e sfumature culturali. Utilizzando il linguaggio figurativo come indicatore delle sfumature culturali e della conoscenza locale, progettiamo compiti di valutazione per la comprensione contestuale, l'uso pragmatico e l'interpretazione delle connotazioni in arabo e inglese. Valutiamo 22 LLM open-source e closed-source su modi di dire dell'arabo egiziano, proverbi arabi multidi dialettali e proverbi inglesi. I nostri risultati mostrano una gerarchia coerente: l'accuratezza media per i proverbi arabi è inferiore del 4,29% rispetto a quella per i proverbi inglesi, e le prestazioni per i modi di dire egiziani sono inferiori del 10,28% rispetto a quelle per i proverbi arabi. Per il compito di uso pragmatico, l'accuratezza diminuisce del 14,07% rispetto alla comprensione, sebbene la fornitura di frasi idiomatiche contestuali migliori l'accuratezza del 10,66%. I modelli mostrano difficoltà anche con il significato connotativo, raggiungendo al massimo un accordo dell'85,58% con annotatori umani su modi di dire con un accordo inter-annotatori del 100%. Questi risultati dimostrano che il linguaggio figurativo funziona come un efficace diagnostico per il ragionamento culturale: sebbene gli LLM siano spesso in grado di interpretare il significato figurativo, incontrano difficoltà nel suo utilizzo appropriato. Per supportare la ricerca futura, rendiamo pubblico Kinayat, il primo dataset di modi di dire dell'arabo egiziano progettato sia per la valutazione della comprensione figurativa che dell'uso pragmatico.
English
We present a comprehensive evaluation of the ability of large language models (LLMs) to process culturally grounded language, specifically to understand and pragmatically use figurative expressions that encode local knowledge and cultural nuance. Using figurative language as a proxy for cultural nuance and local knowledge, we design evaluation tasks for contextual understanding, pragmatic use, and connotation interpretation in Arabic and English. We evaluate 22 open- and closed-source LLMs on Egyptian Arabic idioms, multidialectal Arabic proverbs, and English proverbs. Our results show a consistent hierarchy: the average accuracy for Arabic proverbs is 4.29% lower than for English proverbs, and performance for Egyptian idioms is 10.28% lower than for Arabic proverbs. For the pragmatic use task, accuracy drops by 14.07% relative to understanding, though providing contextual idiomatic sentences improves accuracy by 10.66%. Models also struggle with connotative meaning, reaching at most 85.58% agreement with human annotators on idioms with 100% inter-annotator agreement. These findings demonstrate that figurative language serves as an effective diagnostic for cultural reasoning: while LLMs can often interpret figurative meaning, they face challenges in using it appropriately. To support future research, we release Kinayat, the first dataset of Egyptian Arabic idioms designed for both figurative understanding and pragmatic use evaluation.
PDF11December 1, 2025