Mayaの背後:多言語視覚言語モデルの構築
Behind Maya: Building a Multilingual Vision Language Model
May 13, 2025
著者: Nahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji
cs.AI
要旨
近年、大規模な視覚言語モデル(VLM)の急速な発展が目撃されています。これらのモデルは、主に広く話されている言語において学術的なベンチマークで印象的な結果を示していますが、低リソース言語や多様な文化的文脈での性能には課題が残っています。これらの制限に対処するため、我々はオープンソースの多言語VLM「Maya」を紹介します。我々の貢献は以下の通りです:1)LLaVA事前学習データセットに基づく8言語の多言語画像テキスト事前学習データセット、および2)これらの言語をサポートする多言語画像テキストモデルで、視覚言語タスクにおける文化的・言語的理解を強化します。コードはhttps://github.com/nahidalam/mayaで公開されています。
English
In recent times, we have seen a rapid development of large Vision-Language
Models (VLMs). They have shown impressive results on academic benchmarks,
primarily in widely spoken languages but lack performance on low-resource
languages and varied cultural contexts. To address these limitations, we
introduce Maya, an open-source Multilingual VLM. Our contributions are: 1) a
multilingual image-text pretraining dataset in eight languages, based on the
LLaVA pretraining dataset; and 2) a multilingual image-text model supporting
these languages, enhancing cultural and linguistic comprehension in
vision-language tasks. Code available at https://github.com/nahidalam/maya.