ChatPaper.aiChatPaper

PALO : Un modèle multimodal polyglotte à grande échelle pour 5 milliards de personnes

PALO: A Polyglot Large Multimodal Model for 5B People

February 22, 2024
Auteurs: Muhammad Maaz, Hanoona Rasheed, Abdelrahman Shaker, Salman Khan, Hisham Cholakal, Rao M. Anwer, Tim Baldwin, Michael Felsberg, Fahad S. Khan
cs.AI

Résumé

Dans le but de développer des modèles vision-langage (VLMs) plus inclusifs, cette étude présente un Grand Modèle Multilingue et Multimodal appelé Palo. Palo offre des capacités de raisonnement visuel dans 10 langues majeures, incluant l'anglais, le chinois, l'hindi, l'espagnol, le français, l'arabe, le bengali, le russe, l'ourdou et le japonais, couvrant ainsi environ 5 milliards de personnes (65 % de la population mondiale). Notre approche repose sur une méthode de traduction semi-automatisée pour adapter le jeu de données d'instructions multimodales de l'anglais vers les langues cibles, en utilisant un Grand Modèle de Langage affiné, garantissant ainsi une haute fidélité linguistique tout en permettant une mise à l'échelle grâce à un effort manuel minimal. L'intégration de jeux d'instructions diversifiés nous permet d'améliorer les performances globales dans plusieurs langues, en particulier celles qui sont sous-représentées comme l'hindi, l'arabe, le bengali et l'ourdou. Les modèles résultants sont entraînés à trois échelles différentes (1,7B, 7B et 13B paramètres) pour démontrer leur généralisation et leur scalabilité, où nous observons des améliorations substantielles par rapport à des bases de référence solides. Nous proposons également le premier benchmark multilingue et multimodal pour les approches futures afin d'évaluer leurs capacités de raisonnement vision-langage à travers les langues. Code : https://github.com/mbzuai-oryx/PALO.
English
In pursuit of more inclusive Vision-Language Models (VLMs), this study introduces a Large Multilingual Multimodal Model called Palo. Palo offers visual reasoning capabilities in 10 major languages, including English, Chinese, Hindi, Spanish, French, Arabic, Bengali, Russian, Urdu, and Japanese, that span a total of sim5B people (65\% of the world population). Our approach involves a semi-automated translation approach to adapt the multimodal instruction dataset from English to the target languages using a fine-tuned Large Language Model, thereby ensuring high linguistic fidelity while allowing scalability due to minimal manual effort. The incorporation of diverse instruction sets helps us boost overall performance across multiple languages especially those that are underrepresented like Hindi, Arabic, Bengali, and Urdu. The resulting models are trained across three scales (1.7B, 7B and 13B parameters) to show the generalization and scalability where we observe substantial improvements compared to strong baselines. We also propose the first multilingual multimodal benchmark for the forthcoming approaches to evaluate their vision-language reasoning capabilities across languages. Code: https://github.com/mbzuai-oryx/PALO.
PDF252December 15, 2024