理解を超えて:LLMの比喩的言語に対する文化的処理における実用的ギャップの評価
Beyond Understanding: Evaluating the Pragmatic Gap in LLMs' Cultural Processing of Figurative Language
October 27, 2025
著者: Mena Attia, Aashiq Muhamed, Mai Alkhamissi, Thamar Solorio, Mona Diab
cs.AI
要旨
大規模言語モデル(LLM)の文化的に根差した言語処理能力、特に地域固有の知識や文化的ニュアンスをコード化した比喩表現を理解し実践的に使用する能力について包括的評価を行う。文化的ニュアンスと地域知識の代理指標として比喩言語を用い、アラビア語と英語における文脈理解、実践的使用、含意解釈の評価課題を設計した。エジプト方言の慣用句、多方言アラビア語の諺、英語の諺について、22のオープンソース及びクローズドソースLLMを評価した。結果には一貫した階層性が認められる:アラビア語諺の平均正答率は英語諺より4.29%低く、エジプト方言慣用句の成績はアラビア語諺より10.28%低い。実践的使用課題では理解課題に比べ正答率が14.07%低下するが、文脈付き慣用句を提示することで正答率が10.66%改善する。モデルは含意的意味の処理にも課題を示し、注釈者間一致率100%の慣用句において人間の注釈者との一致率は最大85.58%であった。これらの知見は、比喩言語が文化的推論の効果的な診断指標として機能することを示唆する:LLMは比喩的意味を解釈できる場合が多いが、適切に使用する点では課題を抱えている。将来の研究を支援するため、比喩的理解と実践的使用評価の両方を目的とした初のエジプト方言慣用句データセット「Kinayat」を公開する。
English
We present a comprehensive evaluation of the ability of large language models
(LLMs) to process culturally grounded language, specifically to understand and
pragmatically use figurative expressions that encode local knowledge and
cultural nuance. Using figurative language as a proxy for cultural nuance and
local knowledge, we design evaluation tasks for contextual understanding,
pragmatic use, and connotation interpretation in Arabic and English. We
evaluate 22 open- and closed-source LLMs on Egyptian Arabic idioms,
multidialectal Arabic proverbs, and English proverbs. Our results show a
consistent hierarchy: the average accuracy for Arabic proverbs is 4.29% lower
than for English proverbs, and performance for Egyptian idioms is 10.28% lower
than for Arabic proverbs. For the pragmatic use task, accuracy drops by 14.07%
relative to understanding, though providing contextual idiomatic sentences
improves accuracy by 10.66%. Models also struggle with connotative meaning,
reaching at most 85.58% agreement with human annotators on idioms with 100%
inter-annotator agreement. These findings demonstrate that figurative language
serves as an effective diagnostic for cultural reasoning: while LLMs can often
interpret figurative meaning, they face challenges in using it appropriately.
To support future research, we release Kinayat, the first dataset of Egyptian
Arabic idioms designed for both figurative understanding and pragmatic use
evaluation.