MEENA (PersianMMMU): Esami Educativi Multimodali-Multilingue per la Valutazione a N Livelli
MEENA (PersianMMMU): Multimodal-Multilingual Educational Exams for N-level Assessment
August 24, 2025
Autori: Omid Ghahroodi, Arshia Hemmat, Marzia Nouri, Seyed Mohammad Hadi Hosseini, Doratossadat Dastgheib, Mohammad Vali Sanian, Alireza Sahebi, Reihaneh Zohrabi, Mohammad Hossein Rohban, Ehsaneddin Asgari, Mahdieh Soleymani Baghshah
cs.AI
Abstract
I recenti progressi nei grandi modelli visione-linguaggio (VLMs) si sono concentrati principalmente sull'inglese, con un'attenzione limitata ad altre lingue. Per colmare questa lacuna, introduciamo MEENA (noto anche come PersianMMMU), il primo dataset progettato per valutare i VLMs persiani in compiti scientifici, di ragionamento e di comprensione a livello umano. Il nostro dataset comprende circa 7.500 domande in persiano e 3.000 in inglese, che coprono un'ampia gamma di argomenti come il ragionamento, la matematica, la fisica, diagrammi, grafici, e l'arte e la letteratura persiana. Le caratteristiche principali di MEENA includono: (1) una copertura diversificata di materie che spazia su vari livelli educativi, dalla scuola primaria alla secondaria superiore, (2) metadati ricchi, inclusi livelli di difficoltà e risposte descrittive, (3) dati originali in persiano che preservano le sfumature culturali, (4) una struttura bilingue per valutare le prestazioni cross-linguistiche, e (5) una serie di esperimenti diversificati che valutano varie capacità, tra cui le prestazioni complessive, la capacità del modello di prestare attenzione alle immagini e la sua tendenza a generare allucinazioni. Speriamo che questo benchmark contribuisca a migliorare le capacità dei VLMs oltre l'inglese.
English
Recent advancements in large vision-language models (VLMs) have primarily
focused on English, with limited attention given to other languages. To address
this gap, we introduce MEENA (also known as PersianMMMU), the first dataset
designed to evaluate Persian VLMs across scientific, reasoning, and human-level
understanding tasks. Our dataset comprises approximately 7,500 Persian and
3,000 English questions, covering a wide range of topics such as reasoning,
mathematics, physics, diagrams, charts, and Persian art and literature. Key
features of MEENA include: (1) diverse subject coverage spanning various
educational levels, from primary to upper secondary school, (2) rich metadata,
including difficulty levels and descriptive answers, (3) original Persian data
that preserves cultural nuances, (4) a bilingual structure to assess
cross-linguistic performance, and (5) a series of diverse experiments assessing
various capabilities, including overall performance, the model's ability to
attend to images, and its tendency to generate hallucinations. We hope this
benchmark contributes to enhancing VLM capabilities beyond English.