すべての言語は重要: 文化的に多様な100言語におけるLMMの評価
All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages
November 25, 2024
著者: Ashmal Vayani, Dinura Dissanayake, Hasindri Watawana, Noor Ahsan, Nevasini Sasikumar, Omkar Thawakar, Henok Biadglign Ademtew, Yahya Hmaiti, Amandeep Kumar, Kartik Kuckreja, Mykola Maslych, Wafa Al Ghallabi, Mihail Mihaylov, Chao Qin, Abdelrahman M Shaker, Mike Zhang, Mahardika Krisna Ihsani, Amiel Esplana, Monil Gokani, Shachar Mirkin, Harsh Singh, Ashay Srivastava, Endre Hamerlik, Fathinah Asma Izzati, Fadillah Adamsyah Maani, Sebastian Cavada, Jenny Chim, Rohit Gupta, Sanjay Manjunath, Kamila Zhumakhanova, Feno Heriniaina Rabevohitra, Azril Amirudin, Muhammad Ridzuan, Daniya Kareem, Ketan More, Kunyang Li, Pramesh Shakya, Muhammad Saad, Amirpouya Ghasemaghaei, Amirbek Djanibekov, Dilshod Azizov, Branislava Jankovic, Naman Bhatia, Alvaro Cabrera, Johan Obando-Ceron, Olympiah Otieno, Fabian Farestam, Muztoba Rabbani, Sanoojan Baliah, Santosh Sanjeev, Abduragim Shtanchaev, Maheen Fatima, Thao Nguyen, Amrin Kareem, Toluwani Aremu, Nathan Xavier, Amit Bhatkal, Hawau Toyin, Aman Chadha, Hisham Cholakkal, Rao Muhammad Anwer, Michael Felsberg, Jorma Laaksonen, Thamar Solorio, Monojit Choudhury, Ivan Laptev, Mubarak Shah, Salman Khan, Fahad Khan
cs.AI
要旨
既存の大規模多文化モデル(LMMs)は一般的に、ごく一部の地域と言語に焦点を当てています。LMMsが改良を続ける中で、文化的な文脈を理解し、地域の感受性を尊重し、資源の乏しい言語をサポートすることがますます重要になっています。これらの要素を効果的に統合しつつ、対応する視覚的手がかりを取り入れることが求められます。文化的に多様なグローバルな多文化モデルを追求する中で、提案されたAll Languages Matter Benchmark(ALM-bench)は、100言語を対象としたLMMsの評価において、これまでで最も大規模かつ包括的な取り組みを表しています。ALM-benchは、既存のモデルに挑戦し、様々な言語でのテキストと画像を組み合わせた文化的に多様な画像を理解し、推論する能力をテストします。これには、LMM研究で従来不十分だった多くの資源の乏しい言語も含まれます。このベンチマークは、真偽、多肢選択、および記述式の質問形式を備えた堅牢で微妙な評価フレームワークを提供し、さらに、短文と長文の回答カテゴリに分けられています。ALM-benchの設計は、視覚的および言語的推論の難易度の様々なレベルを扱うモデルの能力を包括的に評価することを保証します。グローバルな文化の豊かな多様性を捉えるために、ALM-benchは、伝統や儀式から有名人や祝祭までの13の異なる文化的側面からコンテンツを慎重にキュレーションしています。これにより、ALM-benchは、最先端のオープンソースおよびクローズドソースのLMMsの厳格なテスト環境を提供するだけでなく、文化的および言語的包括性の重要性を強調し、多様なグローバル人口に効果的に役立つモデルの開発を奨励しています。当該ベンチマークは一般に公開されています。
English
Existing Large Multimodal Models (LMMs) generally focus on only a few regions
and languages. As LMMs continue to improve, it is increasingly important to
ensure they understand cultural contexts, respect local sensitivities, and
support low-resource languages, all while effectively integrating corresponding
visual cues. In pursuit of culturally diverse global multimodal models, our
proposed All Languages Matter Benchmark (ALM-bench) represents the largest and
most comprehensive effort to date for evaluating LMMs across 100 languages.
ALM-bench challenges existing models by testing their ability to understand and
reason about culturally diverse images paired with text in various languages,
including many low-resource languages traditionally underrepresented in LMM
research. The benchmark offers a robust and nuanced evaluation framework
featuring various question formats, including true/false, multiple choice, and
open-ended questions, which are further divided into short and long-answer
categories. ALM-bench design ensures a comprehensive assessment of a model's
ability to handle varied levels of difficulty in visual and linguistic
reasoning. To capture the rich tapestry of global cultures, ALM-bench carefully
curates content from 13 distinct cultural aspects, ranging from traditions and
rituals to famous personalities and celebrations. Through this, ALM-bench not
only provides a rigorous testing ground for state-of-the-art open and
closed-source LMMs but also highlights the importance of cultural and
linguistic inclusivity, encouraging the development of models that can serve
diverse global populations effectively. Our benchmark is publicly available.Summary
AI-Generated Summary