ChatPaper.aiChatPaper

이해를 넘어서: LLM의 비유적 언어 문화적 처리에서 실용적 차이 평가

Beyond Understanding: Evaluating the Pragmatic Gap in LLMs' Cultural Processing of Figurative Language

October 27, 2025
저자: Mena Attia, Aashiq Muhamed, Mai Alkhamissi, Thamar Solorio, Mona Diab
cs.AI

초록

우리는 대규모 언어 모델(LLM)이 문화적으로 토대를 둔 언어, 특히 지역적 지식과 문화적 뉘앙스를 함축하는 비유적 표현을 이해하고 실제적으로 사용하는 능력을 종합적으로 평가한다. 문화적 뉘앙스와 지역적 지식을 대변하는 지표로서 비유적 언어를 활용하여, 아랍어와 영어로 된 맥락적 이해, 실제적 사용, 함축적 해석 평가 과제를 설계하였다. 이집트 아랍어 관용구, 다방언 아랍어 속담, 영어 속담에 대해 오픈소스와 클로즈드소스 LLM 22개 모델을 평가한 결과, 일관된 위계 구조를 확인하였다: 아랍어 속담의 평균 정확도는 영어 속담보다 4.29% 낮았으며, 이집트 관용구의 성능은 아랍어 속담보다 10.28% 낮게 나타났다. 실제적 사용 과제에서는 이해 과제 대비 정확도가 14.07% 하락했으나, 맥락적 관용구 문장을 제공 시 정확도가 10.66% 향상되었다. 모델들은 함축적 의미 해석에도 어려움을 보였으며, 인간 주석자 간 일치도 100%인 관용구에 대해 최대 85.58%의 일치율을 보였다. 이러한 결과는 비유적 언어가 문화적 추론에 대한 효과적 진단 도구로 기능함을 입증한다: LLM은 비유적 의미를 해석할 수 있는 경우가 많지만, 이를 적절히 사용하는 데는 한계를 보인다. 향후 연구를 지원하기 위해 비유적 이해와 실제적 사용 평가를 모두 위해 설계된 최초의 이집트 아랍어 관용구 데이터셋인 키나얏(Kinayat)을 공개한다.
English
We present a comprehensive evaluation of the ability of large language models (LLMs) to process culturally grounded language, specifically to understand and pragmatically use figurative expressions that encode local knowledge and cultural nuance. Using figurative language as a proxy for cultural nuance and local knowledge, we design evaluation tasks for contextual understanding, pragmatic use, and connotation interpretation in Arabic and English. We evaluate 22 open- and closed-source LLMs on Egyptian Arabic idioms, multidialectal Arabic proverbs, and English proverbs. Our results show a consistent hierarchy: the average accuracy for Arabic proverbs is 4.29% lower than for English proverbs, and performance for Egyptian idioms is 10.28% lower than for Arabic proverbs. For the pragmatic use task, accuracy drops by 14.07% relative to understanding, though providing contextual idiomatic sentences improves accuracy by 10.66%. Models also struggle with connotative meaning, reaching at most 85.58% agreement with human annotators on idioms with 100% inter-annotator agreement. These findings demonstrate that figurative language serves as an effective diagnostic for cultural reasoning: while LLMs can often interpret figurative meaning, they face challenges in using it appropriately. To support future research, we release Kinayat, the first dataset of Egyptian Arabic idioms designed for both figurative understanding and pragmatic use evaluation.
PDF11December 1, 2025