ChatPaper.aiChatPaper

PALO: 50億人向けの多言語大規模マルチモーダルモデル

PALO: A Polyglot Large Multimodal Model for 5B People

February 22, 2024
著者: Muhammad Maaz, Hanoona Rasheed, Abdelrahman Shaker, Salman Khan, Hisham Cholakal, Rao M. Anwer, Tim Baldwin, Michael Felsberg, Fahad S. Khan
cs.AI

要旨

より包括的なVision-Languageモデル(VLM)を目指して、本研究ではPaloと呼ばれる大規模多言語マルチモーダルモデルを提案します。Paloは、英語、中国語、ヒンディー語、スペイン語、フランス語、アラビア語、ベンガル語、ロシア語、ウルドゥー語、日本語を含む10の主要言語で視覚的推論能力を提供し、合計約50億人(世界人口の65%)をカバーします。私たちのアプローチは、ファインチューニングされた大規模言語モデルを使用して、マルチモーダル指示データセットを英語から対象言語に適応させる半自動翻訳手法を採用しており、高い言語的忠実性を確保しつつ、最小限の手作業で拡張性を実現します。多様な指示セットの組み込みにより、特にヒンディー語、アラビア語、ベンガル語、ウルドゥー語などの過小評価されている言語を含む複数言語での全体的なパフォーマンスが向上します。結果として得られたモデルは、3つのスケール(1.7B、7B、13Bパラメータ)でトレーニングされ、強力なベースラインと比較して大幅な改善が見られる一般化と拡張性を示します。また、今後のアプローチが言語間での視覚-言語推論能力を評価するための最初の多言語マルチモーダルベンチマークを提案します。コード: https://github.com/mbzuai-oryx/PALO。
English
In pursuit of more inclusive Vision-Language Models (VLMs), this study introduces a Large Multilingual Multimodal Model called Palo. Palo offers visual reasoning capabilities in 10 major languages, including English, Chinese, Hindi, Spanish, French, Arabic, Bengali, Russian, Urdu, and Japanese, that span a total of sim5B people (65\% of the world population). Our approach involves a semi-automated translation approach to adapt the multimodal instruction dataset from English to the target languages using a fine-tuned Large Language Model, thereby ensuring high linguistic fidelity while allowing scalability due to minimal manual effort. The incorporation of diverse instruction sets helps us boost overall performance across multiple languages especially those that are underrepresented like Hindi, Arabic, Bengali, and Urdu. The resulting models are trained across three scales (1.7B, 7B and 13B parameters) to show the generalization and scalability where we observe substantial improvements compared to strong baselines. We also propose the first multilingual multimodal benchmark for the forthcoming approaches to evaluate their vision-language reasoning capabilities across languages. Code: https://github.com/mbzuai-oryx/PALO.
PDF252December 15, 2024