PALO: Ein polyglottes großes multimodales Modell für 5 Milliarden Menschen
PALO: A Polyglot Large Multimodal Model for 5B People
February 22, 2024
Autoren: Muhammad Maaz, Hanoona Rasheed, Abdelrahman Shaker, Salman Khan, Hisham Cholakal, Rao M. Anwer, Tim Baldwin, Michael Felsberg, Fahad S. Khan
cs.AI
Zusammenfassung
Im Bestreben, inklusivere Vision-Language-Modelle (VLMs) zu entwickeln, stellt diese Studie ein großes mehrsprachiges multimodales Modell namens Palo vor. Palo bietet visuelle Reasoning-Fähigkeiten in 10 Hauptsprachen, darunter Englisch, Chinesisch, Hindi, Spanisch, Französisch, Arabisch, Bengalisch, Russisch, Urdu und Japanisch, die insgesamt etwa 5 Milliarden Menschen (65 % der Weltbevölkerung) abdecken. Unser Ansatz beinhaltet eine halbautomatisierte Übersetzungsmethode, um den multimodalen Instruktionsdatensatz von Englisch in die Zielsprachen zu adaptieren, wobei ein feinabgestimmtes Large Language Model verwendet wird. Dadurch wird eine hohe linguistische Treue gewährleistet, während gleichzeitig die Skalierbarkeit aufgrund des minimalen manuellen Aufwands ermöglicht wird. Die Einbindung diverser Instruktionssätze hilft uns, die Gesamtleistung über mehrere Sprachen hinweg zu steigern, insbesondere bei unterrepräsentierten Sprachen wie Hindi, Arabisch, Bengalisch und Urdu. Die resultierenden Modelle werden in drei Größenordnungen (1,7B, 7B und 13B Parameter) trainiert, um die Generalisierungsfähigkeit und Skalierbarkeit zu demonstrieren, wobei wir erhebliche Verbesserungen im Vergleich zu starken Baselines feststellen. Wir schlagen außerdem den ersten mehrsprachigen multimodalen Benchmark für zukünftige Ansätze vor, um deren Vision-Language-Reasoning-Fähigkeiten über verschiedene Sprachen hinweg zu evaluieren. Code: https://github.com/mbzuai-oryx/PALO.
English
In pursuit of more inclusive Vision-Language Models (VLMs), this study
introduces a Large Multilingual Multimodal Model called Palo.
Palo offers visual reasoning capabilities in 10 major languages,
including English, Chinese, Hindi, Spanish, French, Arabic, Bengali, Russian,
Urdu, and Japanese, that span a total of sim5B people (65\% of the world
population). Our approach involves a semi-automated translation approach to
adapt the multimodal instruction dataset from English to the target languages
using a fine-tuned Large Language Model, thereby ensuring high linguistic
fidelity while allowing scalability due to minimal manual effort. The
incorporation of diverse instruction sets helps us boost overall performance
across multiple languages especially those that are underrepresented like
Hindi, Arabic, Bengali, and Urdu. The resulting models are trained across three
scales (1.7B, 7B and 13B parameters) to show the generalization and scalability
where we observe substantial improvements compared to strong baselines. We also
propose the first multilingual multimodal benchmark for the forthcoming
approaches to evaluate their vision-language reasoning capabilities across
languages. Code: https://github.com/mbzuai-oryx/PALO.