MEENA (PersianMMMU): Exames Educacionais Multimodais e Multilíngues para Avaliação de Níveis
MEENA (PersianMMMU): Multimodal-Multilingual Educational Exams for N-level Assessment
August 24, 2025
Autores: Omid Ghahroodi, Arshia Hemmat, Marzia Nouri, Seyed Mohammad Hadi Hosseini, Doratossadat Dastgheib, Mohammad Vali Sanian, Alireza Sahebi, Reihaneh Zohrabi, Mohammad Hossein Rohban, Ehsaneddin Asgari, Mahdieh Soleymani Baghshah
cs.AI
Resumo
Os avanços recentes em grandes modelos de visão e linguagem (VLMs) têm se concentrado principalmente no inglês, com atenção limitada a outros idiomas. Para abordar essa lacuna, apresentamos MEENA (também conhecido como PersianMMMU), o primeiro conjunto de dados projetado para avaliar VLMs em persa em tarefas de compreensão científica, de raciocínio e de nível humano. Nosso conjunto de dados compreende aproximadamente 7.500 perguntas em persa e 3.000 em inglês, abrangendo uma ampla gama de tópicos, como raciocínio, matemática, física, diagramas, gráficos, e arte e literatura persa. As principais características do MEENA incluem: (1) cobertura diversificada de assuntos que abrangem vários níveis educacionais, desde o ensino fundamental até o ensino médio, (2) metadados ricos, incluindo níveis de dificuldade e respostas descritivas, (3) dados originais em persa que preservam nuances culturais, (4) uma estrutura bilíngue para avaliar o desempenho translinguístico, e (5) uma série de experimentos diversos que avaliam várias capacidades, incluindo desempenho geral, a capacidade do modelo de atender a imagens e sua tendência a gerar alucinações. Esperamos que este benchmark contribua para aprimorar as capacidades dos VLMs além do inglês.
English
Recent advancements in large vision-language models (VLMs) have primarily
focused on English, with limited attention given to other languages. To address
this gap, we introduce MEENA (also known as PersianMMMU), the first dataset
designed to evaluate Persian VLMs across scientific, reasoning, and human-level
understanding tasks. Our dataset comprises approximately 7,500 Persian and
3,000 English questions, covering a wide range of topics such as reasoning,
mathematics, physics, diagrams, charts, and Persian art and literature. Key
features of MEENA include: (1) diverse subject coverage spanning various
educational levels, from primary to upper secondary school, (2) rich metadata,
including difficulty levels and descriptive answers, (3) original Persian data
that preserves cultural nuances, (4) a bilingual structure to assess
cross-linguistic performance, and (5) a series of diverse experiments assessing
various capabilities, including overall performance, the model's ability to
attend to images, and its tendency to generate hallucinations. We hope this
benchmark contributes to enhancing VLM capabilities beyond English.