ChatPaper.aiChatPaper

PALO: Un Modelo Multimodal Grande Políglota para 5 Mil Millones de Personas

PALO: A Polyglot Large Multimodal Model for 5B People

February 22, 2024
Autores: Muhammad Maaz, Hanoona Rasheed, Abdelrahman Shaker, Salman Khan, Hisham Cholakal, Rao M. Anwer, Tim Baldwin, Michael Felsberg, Fahad S. Khan
cs.AI

Resumen

En la búsqueda de Modelos de Visión-Lenguaje (VLMs) más inclusivos, este estudio presenta un Modelo Multilingüe y Multimodal a Gran Escala llamado Palo. Palo ofrece capacidades de razonamiento visual en 10 idiomas principales, incluyendo inglés, chino, hindi, español, francés, árabe, bengalí, ruso, urdu y japonés, que abarcan un total de aproximadamente 5 mil millones de personas (65% de la población mundial). Nuestro enfoque implica un método de traducción semi-automatizado para adaptar el conjunto de datos de instrucciones multimodales del inglés a los idiomas objetivo utilizando un Modelo de Lenguaje a Gran Escala ajustado, garantizando así una alta fidelidad lingüística mientras se permite escalabilidad debido al mínimo esfuerzo manual. La incorporación de diversos conjuntos de instrucciones nos ayuda a mejorar el rendimiento general en múltiples idiomas, especialmente en aquellos que están subrepresentados como el hindi, árabe, bengalí y urdu. Los modelos resultantes se entrenan en tres escalas (1.7B, 7B y 13B parámetros) para demostrar la generalización y escalabilidad, donde observamos mejoras sustanciales en comparación con líneas base sólidas. También proponemos el primer punto de referencia multimodal y multilingüe para los enfoques futuros, con el fin de evaluar sus capacidades de razonamiento visión-lenguaje en diferentes idiomas. Código: https://github.com/mbzuai-oryx/PALO.
English
In pursuit of more inclusive Vision-Language Models (VLMs), this study introduces a Large Multilingual Multimodal Model called Palo. Palo offers visual reasoning capabilities in 10 major languages, including English, Chinese, Hindi, Spanish, French, Arabic, Bengali, Russian, Urdu, and Japanese, that span a total of sim5B people (65\% of the world population). Our approach involves a semi-automated translation approach to adapt the multimodal instruction dataset from English to the target languages using a fine-tuned Large Language Model, thereby ensuring high linguistic fidelity while allowing scalability due to minimal manual effort. The incorporation of diverse instruction sets helps us boost overall performance across multiple languages especially those that are underrepresented like Hindi, Arabic, Bengali, and Urdu. The resulting models are trained across three scales (1.7B, 7B and 13B parameters) to show the generalization and scalability where we observe substantial improvements compared to strong baselines. We also propose the first multilingual multimodal benchmark for the forthcoming approaches to evaluate their vision-language reasoning capabilities across languages. Code: https://github.com/mbzuai-oryx/PALO.
PDF252December 15, 2024