MEENA (PersianMMMU): 다중모드-다국어 교육 평가를 위한 N-단계 시험
MEENA (PersianMMMU): Multimodal-Multilingual Educational Exams for N-level Assessment
August 24, 2025
저자: Omid Ghahroodi, Arshia Hemmat, Marzia Nouri, Seyed Mohammad Hadi Hosseini, Doratossadat Dastgheib, Mohammad Vali Sanian, Alireza Sahebi, Reihaneh Zohrabi, Mohammad Hossein Rohban, Ehsaneddin Asgari, Mahdieh Soleymani Baghshah
cs.AI
초록
최근 대형 시각-언어 모델(VLMs)의 발전은 주로 영어에 초점이 맞춰져 있으며, 다른 언어에 대한 관심은 상대적으로 제한적이었습니다. 이러한 격차를 해소하기 위해, 우리는 페르시아어 VLMs를 과학적 추론 및 인간 수준의 이해 과제에서 평가하기 위해 설계된 첫 번째 데이터셋인 MEENA(페르시아어 MMMU로도 알려짐)를 소개합니다. 우리의 데이터셋은 약 7,500개의 페르시아어 질문과 3,000개의 영어 질문으로 구성되어 있으며, 추론, 수학, 물리학, 다이어그램, 차트, 그리고 페르시아 예술과 문학 등 다양한 주제를 다룹니다. MEENA의 주요 특징은 다음과 같습니다: (1) 초등학교부터 고등학교까지 다양한 교육 수준을 아우르는 다양한 주제 범위, (2) 난이도 수준과 설명적 답변을 포함한 풍부한 메타데이터, (3) 문화적 뉘앙스를 보존한 원본 페르시아어 데이터, (4) 교차 언어 성능을 평가하기 위한 이중 언어 구조, (5) 전반적인 성능, 이미지에 주의를 기울이는 모델의 능력, 그리고 환각을 생성하는 경향을 포함한 다양한 능력을 평가하는 일련의 실험. 우리는 이 벤치마크가 영어를 넘어선 VLM의 능력을 향상시키는 데 기여하기를 바랍니다.
English
Recent advancements in large vision-language models (VLMs) have primarily
focused on English, with limited attention given to other languages. To address
this gap, we introduce MEENA (also known as PersianMMMU), the first dataset
designed to evaluate Persian VLMs across scientific, reasoning, and human-level
understanding tasks. Our dataset comprises approximately 7,500 Persian and
3,000 English questions, covering a wide range of topics such as reasoning,
mathematics, physics, diagrams, charts, and Persian art and literature. Key
features of MEENA include: (1) diverse subject coverage spanning various
educational levels, from primary to upper secondary school, (2) rich metadata,
including difficulty levels and descriptive answers, (3) original Persian data
that preserves cultural nuances, (4) a bilingual structure to assess
cross-linguistic performance, and (5) a series of diverse experiments assessing
various capabilities, including overall performance, the model's ability to
attend to images, and its tendency to generate hallucinations. We hope this
benchmark contributes to enhancing VLM capabilities beyond English.