ChatPaper.aiChatPaper

PALO: Een polyglot groot multimodaal model voor 5 miljard mensen

PALO: A Polyglot Large Multimodal Model for 5B People

February 22, 2024
Auteurs: Muhammad Maaz, Hanoona Rasheed, Abdelrahman Shaker, Salman Khan, Hisham Cholakal, Rao M. Anwer, Tim Baldwin, Michael Felsberg, Fahad S. Khan
cs.AI

Samenvatting

In de zoektocht naar meer inclusieve Vision-Language Models (VLMs) introduceert deze studie een groot meertalig multimodaal model genaamd Palo. Palo biedt visuele redeneervaardigheden in 10 belangrijke talen, waaronder Engels, Chinees, Hindi, Spaans, Frans, Arabisch, Bengaals, Russisch, Urdu en Japans, die samen ongeveer 5 miljard mensen beslaan (65% van de wereldbevolking). Onze aanpak omvat een semi-geautomatiseerde vertaalbenadering om de multimodale instructiedataset van het Engels aan te passen aan de doeltalen met behulp van een fijn afgestemd Large Language Model, waardoor een hoge linguïstische betrouwbaarheid wordt gegarandeerd terwijl schaalbaarheid mogelijk blijft door minimale handmatige inspanning. De integratie van diverse instructiesets helpt ons de algehele prestaties over meerdere talen te verbeteren, vooral voor ondervertegenwoordigde talen zoals Hindi, Arabisch, Bengaals en Urdu. De resulterende modellen zijn getraind op drie schalen (1,7B, 7B en 13B parameters) om de generalisatie en schaalbaarheid te demonstreren, waarbij we aanzienlijke verbeteringen waarnemen in vergelijking met sterke baseline-modellen. We stellen ook de eerste meertalige multimodale benchmark voor om toekomstige benaderingen te evalueren op hun visueel-taalkundige redeneervaardigheden over verschillende talen. Code: https://github.com/mbzuai-oryx/PALO.
English
In pursuit of more inclusive Vision-Language Models (VLMs), this study introduces a Large Multilingual Multimodal Model called Palo. Palo offers visual reasoning capabilities in 10 major languages, including English, Chinese, Hindi, Spanish, French, Arabic, Bengali, Russian, Urdu, and Japanese, that span a total of sim5B people (65\% of the world population). Our approach involves a semi-automated translation approach to adapt the multimodal instruction dataset from English to the target languages using a fine-tuned Large Language Model, thereby ensuring high linguistic fidelity while allowing scalability due to minimal manual effort. The incorporation of diverse instruction sets helps us boost overall performance across multiple languages especially those that are underrepresented like Hindi, Arabic, Bengali, and Urdu. The resulting models are trained across three scales (1.7B, 7B and 13B parameters) to show the generalization and scalability where we observe substantial improvements compared to strong baselines. We also propose the first multilingual multimodal benchmark for the forthcoming approaches to evaluate their vision-language reasoning capabilities across languages. Code: https://github.com/mbzuai-oryx/PALO.
PDF232February 14, 2026