MEENA (PerzischeMMMU): Multimodale-Multilinguele Educatieve Examens voor Niveau-N Beoordeling
MEENA (PersianMMMU): Multimodal-Multilingual Educational Exams for N-level Assessment
August 24, 2025
Auteurs: Omid Ghahroodi, Arshia Hemmat, Marzia Nouri, Seyed Mohammad Hadi Hosseini, Doratossadat Dastgheib, Mohammad Vali Sanian, Alireza Sahebi, Reihaneh Zohrabi, Mohammad Hossein Rohban, Ehsaneddin Asgari, Mahdieh Soleymani Baghshah
cs.AI
Samenvatting
Recente vooruitgang in grote visueel-taalmodelen (VLMs) heeft zich voornamelijk gericht op het Engels, met beperkte aandacht voor andere talen. Om dit gat te dichten, introduceren we MEENA (ook bekend als PersianMMMU), de eerste dataset die is ontworpen om Perzische VLMs te evalueren op wetenschappelijke, redeneer- en menselijk begripsniveau taken. Onze dataset bestaat uit ongeveer 7.500 Perzische en 3.000 Engelse vragen, die een breed scala aan onderwerpen beslaan, zoals redeneren, wiskunde, natuurkunde, diagrammen, grafieken, en Perzische kunst en literatuur. Belangrijke kenmerken van MEENA zijn: (1) diverse onderwerpsdekking die verschillende onderwijs niveaus omvat, van basis- tot bovenbouw middelbare school, (2) rijke metadata, inclusief moeilijkheidsgraden en beschrijvende antwoorden, (3) originele Perzische data die culturele nuances behouden, (4) een tweetalige structuur om cross-linguïstische prestaties te beoordelen, en (5) een reeks diverse experimenten die verschillende capaciteiten beoordelen, waaronder algemene prestaties, het vermogen van het model om aandacht te besteden aan afbeeldingen, en de neiging om hallucinaties te genereren. We hopen dat deze benchmark bijdraagt aan het verbeteren van VLM-capaciteiten buiten het Engels.
English
Recent advancements in large vision-language models (VLMs) have primarily
focused on English, with limited attention given to other languages. To address
this gap, we introduce MEENA (also known as PersianMMMU), the first dataset
designed to evaluate Persian VLMs across scientific, reasoning, and human-level
understanding tasks. Our dataset comprises approximately 7,500 Persian and
3,000 English questions, covering a wide range of topics such as reasoning,
mathematics, physics, diagrams, charts, and Persian art and literature. Key
features of MEENA include: (1) diverse subject coverage spanning various
educational levels, from primary to upper secondary school, (2) rich metadata,
including difficulty levels and descriptive answers, (3) original Persian data
that preserves cultural nuances, (4) a bilingual structure to assess
cross-linguistic performance, and (5) a series of diverse experiments assessing
various capabilities, including overall performance, the model's ability to
attend to images, and its tendency to generate hallucinations. We hope this
benchmark contributes to enhancing VLM capabilities beyond English.