MEENA (PersianMMMU): Exámenes Educativos Multimodales y Multilingües para la Evaluación de Niveles N
MEENA (PersianMMMU): Multimodal-Multilingual Educational Exams for N-level Assessment
August 24, 2025
Autores: Omid Ghahroodi, Arshia Hemmat, Marzia Nouri, Seyed Mohammad Hadi Hosseini, Doratossadat Dastgheib, Mohammad Vali Sanian, Alireza Sahebi, Reihaneh Zohrabi, Mohammad Hossein Rohban, Ehsaneddin Asgari, Mahdieh Soleymani Baghshah
cs.AI
Resumen
Los avances recientes en los grandes modelos de visión y lenguaje (VLMs, por sus siglas en inglés) se han centrado principalmente en el inglés, con una atención limitada hacia otros idiomas. Para abordar esta brecha, presentamos MEENA (también conocido como PersianMMMU), el primer conjunto de datos diseñado para evaluar VLMs en persa en tareas de comprensión científica, razonamiento y nivel humano. Nuestro conjunto de datos incluye aproximadamente 7,500 preguntas en persa y 3,000 en inglés, abarcando una amplia gama de temas como razonamiento, matemáticas, física, diagramas, gráficos, y arte y literatura persa. Las características clave de MEENA incluyen: (1) cobertura diversa de temas que abarcan varios niveles educativos, desde la primaria hasta la secundaria superior, (2) metadatos detallados, que incluyen niveles de dificultad y respuestas descriptivas, (3) datos originales en persa que preservan matices culturales, (4) una estructura bilingüe para evaluar el rendimiento cruzado entre idiomas, y (5) una serie de experimentos diversos que evalúan diversas capacidades, incluyendo el rendimiento general, la capacidad del modelo para atender a imágenes y su tendencia a generar alucinaciones. Esperamos que este benchmark contribuya a mejorar las capacidades de los VLMs más allá del inglés.
English
Recent advancements in large vision-language models (VLMs) have primarily
focused on English, with limited attention given to other languages. To address
this gap, we introduce MEENA (also known as PersianMMMU), the first dataset
designed to evaluate Persian VLMs across scientific, reasoning, and human-level
understanding tasks. Our dataset comprises approximately 7,500 Persian and
3,000 English questions, covering a wide range of topics such as reasoning,
mathematics, physics, diagrams, charts, and Persian art and literature. Key
features of MEENA include: (1) diverse subject coverage spanning various
educational levels, from primary to upper secondary school, (2) rich metadata,
including difficulty levels and descriptive answers, (3) original Persian data
that preserves cultural nuances, (4) a bilingual structure to assess
cross-linguistic performance, and (5) a series of diverse experiments assessing
various capabilities, including overall performance, the model's ability to
attend to images, and its tendency to generate hallucinations. We hope this
benchmark contributes to enhancing VLM capabilities beyond English.