ChatPaper.aiChatPaper

PALO: Um Modelo Multimodal Poliglota de Grande Escala para 5 Bilhões de Pessoas

PALO: A Polyglot Large Multimodal Model for 5B People

February 22, 2024
Autores: Muhammad Maaz, Hanoona Rasheed, Abdelrahman Shaker, Salman Khan, Hisham Cholakal, Rao M. Anwer, Tim Baldwin, Michael Felsberg, Fahad S. Khan
cs.AI

Resumo

Em busca de Modelos Visão-Linguagem (VLMs) mais inclusivos, este estudo introduz um Grande Modelo Multimodal Multilíngue chamado Palo. O Palo oferece capacidades de raciocínio visual em 10 idiomas principais, incluindo inglês, chinês, hindi, espanhol, francês, árabe, bengali, russo, urdu e japonês, que abrangem um total de aproximadamente 5 bilhões de pessoas (65% da população mundial). Nossa abordagem envolve um método de tradução semiautomatizada para adaptar o conjunto de dados de instruções multimodais do inglês para os idiomas-alvo, utilizando um Modelo de Linguagem de Grande Escala ajustado, garantindo assim alta fidelidade linguística enquanto permite escalabilidade devido ao esforço manual mínimo. A incorporação de conjuntos de instruções diversos nos ajuda a impulsionar o desempenho geral em vários idiomas, especialmente aqueles sub-representados, como hindi, árabe, bengali e urdu. Os modelos resultantes são treinados em três escalas (1,7B, 7B e 13B parâmetros) para demonstrar generalização e escalabilidade, onde observamos melhorias substanciais em comparação com bases fortes. Também propomos o primeiro benchmark multimodal multilíngue para as abordagens futuras avaliarem suas capacidades de raciocínio visão-linguagem em diferentes idiomas. Código: https://github.com/mbzuai-oryx/PALO.
English
In pursuit of more inclusive Vision-Language Models (VLMs), this study introduces a Large Multilingual Multimodal Model called Palo. Palo offers visual reasoning capabilities in 10 major languages, including English, Chinese, Hindi, Spanish, French, Arabic, Bengali, Russian, Urdu, and Japanese, that span a total of sim5B people (65\% of the world population). Our approach involves a semi-automated translation approach to adapt the multimodal instruction dataset from English to the target languages using a fine-tuned Large Language Model, thereby ensuring high linguistic fidelity while allowing scalability due to minimal manual effort. The incorporation of diverse instruction sets helps us boost overall performance across multiple languages especially those that are underrepresented like Hindi, Arabic, Bengali, and Urdu. The resulting models are trained across three scales (1.7B, 7B and 13B parameters) to show the generalization and scalability where we observe substantial improvements compared to strong baselines. We also propose the first multilingual multimodal benchmark for the forthcoming approaches to evaluate their vision-language reasoning capabilities across languages. Code: https://github.com/mbzuai-oryx/PALO.
PDF242December 15, 2024