PALO: Un modello multimodale poliglotta su larga scala per 5 miliardi di persone
PALO: A Polyglot Large Multimodal Model for 5B People
February 22, 2024
Autori: Muhammad Maaz, Hanoona Rasheed, Abdelrahman Shaker, Salman Khan, Hisham Cholakal, Rao M. Anwer, Tim Baldwin, Michael Felsberg, Fahad S. Khan
cs.AI
Abstract
Nel perseguimento di modelli visione-linguaggio (VLMs) più inclusivi, questo studio introduce un modello multilingue multimodale di grandi dimensioni chiamato Palo. Palo offre capacità di ragionamento visivo in 10 lingue principali, tra cui inglese, cinese, hindi, spagnolo, francese, arabo, bengalese, russo, urdu e giapponese, che coprono un totale di circa 5 miliardi di persone (65% della popolazione mondiale). Il nostro approccio prevede un metodo di traduzione semi-automatizzato per adattare il dataset di istruzioni multimodali dall'inglese alle lingue target utilizzando un modello di linguaggio di grandi dimensioni fine-tuned, garantendo così un'elevata fedeltà linguistica e consentendo scalabilità grazie a uno sforzo manuale minimo. L'incorporazione di set di istruzioni diversificati ci aiuta a migliorare le prestazioni complessive in più lingue, in particolare quelle sottorappresentate come hindi, arabo, bengalese e urdu. I modelli risultanti sono addestrati su tre scale (1,7B, 7B e 13B parametri) per dimostrare la generalizzazione e la scalabilità, osservando miglioramenti significativi rispetto a baseline robuste. Proponiamo inoltre il primo benchmark multimodale multilingue per valutare le capacità di ragionamento visione-linguaggio dei futuri approcci in diverse lingue. Codice: https://github.com/mbzuai-oryx/PALO.
English
In pursuit of more inclusive Vision-Language Models (VLMs), this study
introduces a Large Multilingual Multimodal Model called Palo.
Palo offers visual reasoning capabilities in 10 major languages,
including English, Chinese, Hindi, Spanish, French, Arabic, Bengali, Russian,
Urdu, and Japanese, that span a total of sim5B people (65\% of the world
population). Our approach involves a semi-automated translation approach to
adapt the multimodal instruction dataset from English to the target languages
using a fine-tuned Large Language Model, thereby ensuring high linguistic
fidelity while allowing scalability due to minimal manual effort. The
incorporation of diverse instruction sets helps us boost overall performance
across multiple languages especially those that are underrepresented like
Hindi, Arabic, Bengali, and Urdu. The resulting models are trained across three
scales (1.7B, 7B and 13B parameters) to show the generalization and scalability
where we observe substantial improvements compared to strong baselines. We also
propose the first multilingual multimodal benchmark for the forthcoming
approaches to evaluate their vision-language reasoning capabilities across
languages. Code: https://github.com/mbzuai-oryx/PALO.