ChatPaper.aiChatPaper

За пределами понимания: оценка прагматического разрыва в культурной обработке образного языка крупными языковыми моделями

Beyond Understanding: Evaluating the Pragmatic Gap in LLMs' Cultural Processing of Figurative Language

October 27, 2025
Авторы: Mena Attia, Aashiq Muhamed, Mai Alkhamissi, Thamar Solorio, Mona Diab
cs.AI

Аннотация

Мы представляем всестороннюю оценку способности больших языковых моделей (LLM) обрабатывать культурно-обусловленный язык, в частности, понимать и прагматически использовать образные выражения, кодирующие локальные знания и культурные нюансы. Используя образный язык в качестве индикатора культурных нюансов и локальных знаний, мы разработали оценочные задания на контекстуальное понимание, прагматическое использование и интерпретацию коннотаций для арабского и английского языков. Мы оценили 22 открытые и проприетарные LLM на идиомах египетского арабского, многодиалектных арабских пословицах и английских пословицах. Наши результаты демонстрируют устойчивую иерархию: средняя точность для арабских пословиц на 4.29% ниже, чем для английских, а производительность на египетских идиомах на 10.28% ниже, чем на арабских пословицах. В задаче на прагматическое использование точность снижается на 14.07% по сравнению с пониманием, хотя предоставление контекстных идиоматических предложений повышает точность на 10.66%. Модели также испытывают трудности с коннотативным значением, достигая максимум 85.58% согласия с аннотаторами-людьми для идиом со 100% межаннотаторным согласием. Эти результаты демонстрируют, что образный язык служит эффективным диагностическим инструментом для оценки культурного мышления: хотя LLM часто могут интерпретировать переносное значение, они сталкиваются с трудностями в его уместном использовании. Для поддержки будущих исследований мы публикуем Kinayat — первый набор данных идиом египетского арабского языка, предназначенный для оценки как образного понимания, так и прагматического использования.
English
We present a comprehensive evaluation of the ability of large language models (LLMs) to process culturally grounded language, specifically to understand and pragmatically use figurative expressions that encode local knowledge and cultural nuance. Using figurative language as a proxy for cultural nuance and local knowledge, we design evaluation tasks for contextual understanding, pragmatic use, and connotation interpretation in Arabic and English. We evaluate 22 open- and closed-source LLMs on Egyptian Arabic idioms, multidialectal Arabic proverbs, and English proverbs. Our results show a consistent hierarchy: the average accuracy for Arabic proverbs is 4.29% lower than for English proverbs, and performance for Egyptian idioms is 10.28% lower than for Arabic proverbs. For the pragmatic use task, accuracy drops by 14.07% relative to understanding, though providing contextual idiomatic sentences improves accuracy by 10.66%. Models also struggle with connotative meaning, reaching at most 85.58% agreement with human annotators on idioms with 100% inter-annotator agreement. These findings demonstrate that figurative language serves as an effective diagnostic for cultural reasoning: while LLMs can often interpret figurative meaning, they face challenges in using it appropriately. To support future research, we release Kinayat, the first dataset of Egyptian Arabic idioms designed for both figurative understanding and pragmatic use evaluation.
PDF11December 1, 2025