ChatPaper.aiChatPaper

PALO: Ein polyglottes großes multimodales Modell für 5 Milliarden Menschen

PALO: A Polyglot Large Multimodal Model for 5B People

February 22, 2024
Autoren: Muhammad Maaz, Hanoona Rasheed, Abdelrahman Shaker, Salman Khan, Hisham Cholakal, Rao M. Anwer, Tim Baldwin, Michael Felsberg, Fahad S. Khan
cs.AI

Zusammenfassung

Im Bestreben, inklusivere Vision-Language-Modelle (VLMs) zu entwickeln, stellt diese Studie ein großes mehrsprachiges multimodales Modell namens Palo vor. Palo bietet visuelle Reasoning-Fähigkeiten in 10 Hauptsprachen, darunter Englisch, Chinesisch, Hindi, Spanisch, Französisch, Arabisch, Bengalisch, Russisch, Urdu und Japanisch, die insgesamt etwa 5 Milliarden Menschen (65 % der Weltbevölkerung) abdecken. Unser Ansatz beinhaltet eine halbautomatisierte Übersetzungsmethode, um den multimodalen Instruktionsdatensatz von Englisch in die Zielsprachen zu adaptieren, wobei ein feinabgestimmtes Large Language Model verwendet wird. Dadurch wird eine hohe linguistische Treue gewährleistet, während gleichzeitig die Skalierbarkeit aufgrund des minimalen manuellen Aufwands ermöglicht wird. Die Einbindung diverser Instruktionssätze hilft uns, die Gesamtleistung über mehrere Sprachen hinweg zu steigern, insbesondere bei unterrepräsentierten Sprachen wie Hindi, Arabisch, Bengalisch und Urdu. Die resultierenden Modelle werden in drei Größenordnungen (1,7B, 7B und 13B Parameter) trainiert, um die Generalisierungsfähigkeit und Skalierbarkeit zu demonstrieren, wobei wir erhebliche Verbesserungen im Vergleich zu starken Baselines feststellen. Wir schlagen außerdem den ersten mehrsprachigen multimodalen Benchmark für zukünftige Ansätze vor, um deren Vision-Language-Reasoning-Fähigkeiten über verschiedene Sprachen hinweg zu evaluieren. Code: https://github.com/mbzuai-oryx/PALO.
English
In pursuit of more inclusive Vision-Language Models (VLMs), this study introduces a Large Multilingual Multimodal Model called Palo. Palo offers visual reasoning capabilities in 10 major languages, including English, Chinese, Hindi, Spanish, French, Arabic, Bengali, Russian, Urdu, and Japanese, that span a total of sim5B people (65\% of the world population). Our approach involves a semi-automated translation approach to adapt the multimodal instruction dataset from English to the target languages using a fine-tuned Large Language Model, thereby ensuring high linguistic fidelity while allowing scalability due to minimal manual effort. The incorporation of diverse instruction sets helps us boost overall performance across multiple languages especially those that are underrepresented like Hindi, Arabic, Bengali, and Urdu. The resulting models are trained across three scales (1.7B, 7B and 13B parameters) to show the generalization and scalability where we observe substantial improvements compared to strong baselines. We also propose the first multilingual multimodal benchmark for the forthcoming approaches to evaluate their vision-language reasoning capabilities across languages. Code: https://github.com/mbzuai-oryx/PALO.
PDF252December 15, 2024