MEENA (PersianMMMU): Мультимодальные-многоязычные образовательные тесты для оценки уровня N
MEENA (PersianMMMU): Multimodal-Multilingual Educational Exams for N-level Assessment
August 24, 2025
Авторы: Omid Ghahroodi, Arshia Hemmat, Marzia Nouri, Seyed Mohammad Hadi Hosseini, Doratossadat Dastgheib, Mohammad Vali Sanian, Alireza Sahebi, Reihaneh Zohrabi, Mohammad Hossein Rohban, Ehsaneddin Asgari, Mahdieh Soleymani Baghshah
cs.AI
Аннотация
Последние достижения в области крупных моделей, работающих с визуальными и языковыми данными (VLMs), в основном сосредоточены на английском языке, при этом другим языкам уделяется ограниченное внимание. Чтобы устранить этот пробел, мы представляем MEENA (также известную как PersianMMMU) — первый набор данных, разработанный для оценки персидских VLMs в задачах научного, логического и человеческого понимания. Наш набор данных включает примерно 7 500 вопросов на персидском и 3 000 на английском языке, охватывающих широкий спектр тем, таких как логические рассуждения, математика, физика, диаграммы, графики, а также персидское искусство и литературу. Ключевые особенности MEENA включают: (1) разнообразие предметов, охватывающих различные уровни образования — от начальной до старшей школы, (2) богатые метаданные, включая уровни сложности и развернутые ответы, (3) оригинальные персидские данные, сохраняющие культурные особенности, (4) двуязычную структуру для оценки кросс-лингвистической производительности и (5) серию разнообразных экспериментов, оценивающих различные способности, включая общую производительность, умение модели обращать внимание на изображения и склонность к генерации галлюцинаций. Мы надеемся, что этот эталонный тест внесет вклад в расширение возможностей VLMs за пределами английского языка.
English
Recent advancements in large vision-language models (VLMs) have primarily
focused on English, with limited attention given to other languages. To address
this gap, we introduce MEENA (also known as PersianMMMU), the first dataset
designed to evaluate Persian VLMs across scientific, reasoning, and human-level
understanding tasks. Our dataset comprises approximately 7,500 Persian and
3,000 English questions, covering a wide range of topics such as reasoning,
mathematics, physics, diagrams, charts, and Persian art and literature. Key
features of MEENA include: (1) diverse subject coverage spanning various
educational levels, from primary to upper secondary school, (2) rich metadata,
including difficulty levels and descriptive answers, (3) original Persian data
that preserves cultural nuances, (4) a bilingual structure to assess
cross-linguistic performance, and (5) a series of diverse experiments assessing
various capabilities, including overall performance, the model's ability to
attend to images, and its tendency to generate hallucinations. We hope this
benchmark contributes to enhancing VLM capabilities beyond English.