MEENA (PersianMMMU) : Examens Éducatifs Multimodaux et Multilingues pour l'Évaluation de Niveaux
MEENA (PersianMMMU): Multimodal-Multilingual Educational Exams for N-level Assessment
August 24, 2025
papers.authors: Omid Ghahroodi, Arshia Hemmat, Marzia Nouri, Seyed Mohammad Hadi Hosseini, Doratossadat Dastgheib, Mohammad Vali Sanian, Alireza Sahebi, Reihaneh Zohrabi, Mohammad Hossein Rohban, Ehsaneddin Asgari, Mahdieh Soleymani Baghshah
cs.AI
papers.abstract
Les récents progrès dans les grands modèles vision-langage (VLMs) se sont principalement concentrés sur l'anglais, avec une attention limitée accordée aux autres langues. Pour combler cette lacune, nous présentons MEENA (également connu sous le nom de PersianMMMU), le premier ensemble de données conçu pour évaluer les VLMs en persan à travers des tâches scientifiques, de raisonnement et de compréhension humaine. Notre ensemble de données comprend environ 7 500 questions en persan et 3 000 en anglais, couvrant un large éventail de sujets tels que le raisonnement, les mathématiques, la physique, les diagrammes, les graphiques, ainsi que l'art et la littérature persans. Les caractéristiques clés de MEENA incluent : (1) une couverture diversifiée de sujets s'étendant à divers niveaux éducatifs, du primaire au secondaire supérieur, (2) des métadonnées riches, incluant des niveaux de difficulté et des réponses descriptives, (3) des données originales en persan qui préservent les nuances culturelles, (4) une structure bilingue pour évaluer les performances interlinguistiques, et (5) une série d'expériences variées évaluant diverses capacités, notamment la performance globale, la capacité du modèle à se concentrer sur les images, et sa tendance à générer des hallucinations. Nous espérons que ce benchmark contribuera à améliorer les capacités des VLMs au-delà de l'anglais.
English
Recent advancements in large vision-language models (VLMs) have primarily
focused on English, with limited attention given to other languages. To address
this gap, we introduce MEENA (also known as PersianMMMU), the first dataset
designed to evaluate Persian VLMs across scientific, reasoning, and human-level
understanding tasks. Our dataset comprises approximately 7,500 Persian and
3,000 English questions, covering a wide range of topics such as reasoning,
mathematics, physics, diagrams, charts, and Persian art and literature. Key
features of MEENA include: (1) diverse subject coverage spanning various
educational levels, from primary to upper secondary school, (2) rich metadata,
including difficulty levels and descriptive answers, (3) original Persian data
that preserves cultural nuances, (4) a bilingual structure to assess
cross-linguistic performance, and (5) a series of diverse experiments assessing
various capabilities, including overall performance, the model's ability to
attend to images, and its tendency to generate hallucinations. We hope this
benchmark contributes to enhancing VLM capabilities beyond English.