ChatPaper.aiChatPaper

Além da Compreensão: Avaliando a Lacuna Pragmática no Processamento Cultural de Linguagem Figurada por LLMs

Beyond Understanding: Evaluating the Pragmatic Gap in LLMs' Cultural Processing of Figurative Language

October 27, 2025
Autores: Mena Attia, Aashiq Muhamed, Mai Alkhamissi, Thamar Solorio, Mona Diab
cs.AI

Resumo

Apresentamos uma avaliação abrangente da capacidade de modelos de linguagem de grande porte (LLMs) para processar linguagem culturalmente fundamentada, especificamente para compreender e usar pragmaticamente expressões figurativas que codificam conhecimento local e nuances culturais. Utilizando a linguagem figurativa como um *proxy* para nuances culturais e conhecimento local, projetamos tarefas de avaliação para compreensão contextual, uso pragmático e interpretação de conotações em Árabe e Inglês. Avaliamos 22 LLMs de código aberto e proprietários em expressões idiomáticas do Árabe Egípcio, provérbios árabes multidialetais e provérbios ingleses. Nossos resultados mostram uma hierarquia consistente: a precisão média para provérbios árabes é 4,29% menor do que para provérbios ingleses, e o desempenho para expressões idiomáticas egípcias é 10,28% menor do que para provérbios árabes. Para a tarefa de uso pragmático, a precisão cai 14,07% em relação à compreensão, embora fornecer frases contextuais idiomáticas aumente a precisão em 10,66%. Os modelos também lutam com o significado conotativo, alcançando no máximo 85,58% de concordância com anotadores humanos em expressões idiomáticas com 100% de concordância entre anotadores. Essas descobertas demonstram que a linguagem figurativa serve como um diagnóstico eficaz para o raciocínio cultural: embora os LLMs possam frequentemente interpretar o significado figurativo, eles enfrentam desafios em usá-lo adequadamente. Para apoiar pesquisas futuras, disponibilizamos o Kinayat, o primeiro conjunto de dados de expressões idiomáticas do Árabe Egípcio projetado para avaliação tanto da compreensão figurativa quanto do uso pragmático.
English
We present a comprehensive evaluation of the ability of large language models (LLMs) to process culturally grounded language, specifically to understand and pragmatically use figurative expressions that encode local knowledge and cultural nuance. Using figurative language as a proxy for cultural nuance and local knowledge, we design evaluation tasks for contextual understanding, pragmatic use, and connotation interpretation in Arabic and English. We evaluate 22 open- and closed-source LLMs on Egyptian Arabic idioms, multidialectal Arabic proverbs, and English proverbs. Our results show a consistent hierarchy: the average accuracy for Arabic proverbs is 4.29% lower than for English proverbs, and performance for Egyptian idioms is 10.28% lower than for Arabic proverbs. For the pragmatic use task, accuracy drops by 14.07% relative to understanding, though providing contextual idiomatic sentences improves accuracy by 10.66%. Models also struggle with connotative meaning, reaching at most 85.58% agreement with human annotators on idioms with 100% inter-annotator agreement. These findings demonstrate that figurative language serves as an effective diagnostic for cultural reasoning: while LLMs can often interpret figurative meaning, they face challenges in using it appropriately. To support future research, we release Kinayat, the first dataset of Egyptian Arabic idioms designed for both figurative understanding and pragmatic use evaluation.
PDF21February 7, 2026