ChatPaper.aiChatPaper

MEENA(ペルシャ語MMMU):Nレベル評価のためのマルチモーダル・マルチリンガル教育試験

MEENA (PersianMMMU): Multimodal-Multilingual Educational Exams for N-level Assessment

August 24, 2025
著者: Omid Ghahroodi, Arshia Hemmat, Marzia Nouri, Seyed Mohammad Hadi Hosseini, Doratossadat Dastgheib, Mohammad Vali Sanian, Alireza Sahebi, Reihaneh Zohrabi, Mohammad Hossein Rohban, Ehsaneddin Asgari, Mahdieh Soleymani Baghshah
cs.AI

要旨

大規模視覚言語モデル(VLM)の最近の進展は主に英語に焦点が当てられており、他の言語への注目は限られています。このギャップを埋めるため、私たちはMEENA(別名PersianMMMU)を紹介します。これは、科学的推論や人間レベルの理解タスクにおいてペルシャ語VLMを評価するために設計された初のデータセットです。私たちのデータセットは約7,500のペルシャ語と3,000の英語の質問からなり、推論、数学、物理学、図表、ペルシャの芸術と文学など幅広いトピックをカバーしています。MEENAの主な特徴は以下の通りです:(1)初等教育から高等教育まで様々な教育レベルにわたる多様な科目のカバレッジ、(2)難易度レベルや記述的な回答を含む豊富なメタデータ、(3)文化的ニュアンスを保持したオリジナルのペルシャ語データ、(4)言語間のパフォーマンスを評価するためのバイリンガル構造、(5)全体的なパフォーマンス、画像への注意能力、幻覚生成の傾向など様々な能力を評価する多様な実験シリーズ。このベンチマークが、英語を超えたVLMの能力向上に貢献することを願っています。
English
Recent advancements in large vision-language models (VLMs) have primarily focused on English, with limited attention given to other languages. To address this gap, we introduce MEENA (also known as PersianMMMU), the first dataset designed to evaluate Persian VLMs across scientific, reasoning, and human-level understanding tasks. Our dataset comprises approximately 7,500 Persian and 3,000 English questions, covering a wide range of topics such as reasoning, mathematics, physics, diagrams, charts, and Persian art and literature. Key features of MEENA include: (1) diverse subject coverage spanning various educational levels, from primary to upper secondary school, (2) rich metadata, including difficulty levels and descriptive answers, (3) original Persian data that preserves cultural nuances, (4) a bilingual structure to assess cross-linguistic performance, and (5) a series of diverse experiments assessing various capabilities, including overall performance, the model's ability to attend to images, and its tendency to generate hallucinations. We hope this benchmark contributes to enhancing VLM capabilities beyond English.
PDF61August 26, 2025