Maya: 指示を微調整した多言語多モーダルモデル
Maya: An Instruction Finetuned Multilingual Multimodal Model
December 10, 2024
著者: Nahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji
cs.AI
要旨
大規模なビジョン言語モデル(VLMs)の急速な発展により、広く話されている言語で主に学術的なベンチマークで印象的な結果が得られています。ただし、現在のVLMsが低リソース言語や多様な文化的コンテキストを扱う能力には依然として大きなギャップがあり、これは高品質で多様で安全性が確認されたデータの不足によるものです。そのため、これらのモデルはしばしば低リソース言語や文化的ニュアンスを毒性から解放された形で理解するのに苦労しています。これらの制限に対処するために、我々はMayaというオープンソースのマルチモーダル多言語モデルを導入します。私たちの貢献は次の3つです:1)LLaVA事前トレーニングデータセットに基づく8つの言語での多言語画像テキスト事前トレーニングデータセット、2)LLaVAデータセット内の毒性の徹底的な分析に続いて、8つの言語での新しい毒性フリーバージョンの作成、および3)これらの言語をサポートする多言語画像テキストモデルにより、ビジョン言語タスクにおける文化的および言語的理解が向上します。コードはhttps://github.com/nahidalam/mayaで入手可能です。
English
The rapid development of large Vision-Language Models (VLMs) has led to
impressive results on academic benchmarks, primarily in widely spoken
languages. However, significant gaps remain in the ability of current VLMs to
handle low-resource languages and varied cultural contexts, largely due to a
lack of high-quality, diverse, and safety-vetted data. Consequently, these
models often struggle to understand low-resource languages and cultural nuances
in a manner free from toxicity. To address these limitations, we introduce
Maya, an open-source Multimodal Multilingual model. Our contributions are
threefold: 1) a multilingual image-text pretraining dataset in eight languages,
based on the LLaVA pretraining dataset; 2) a thorough analysis of toxicity
within the LLaVA dataset, followed by the creation of a novel toxicity-free
version across eight languages; and 3) a multilingual image-text model
supporting these languages, enhancing cultural and linguistic comprehension in
vision-language tasks. Code available at https://github.com/nahidalam/maya.Summary
AI-Generated Summary