PALO: Полиглотная крупная мультимодальная модель для 5 миллиардов человек
PALO: A Polyglot Large Multimodal Model for 5B People
February 22, 2024
Авторы: Muhammad Maaz, Hanoona Rasheed, Abdelrahman Shaker, Salman Khan, Hisham Cholakal, Rao M. Anwer, Tim Baldwin, Michael Felsberg, Fahad S. Khan
cs.AI
Аннотация
В стремлении к созданию более инклюзивных моделей обработки зрения и языка (Vision-Language Models, VLMs), данное исследование представляет крупную многоязычную мультимодальную модель под названием Palo. Palo предлагает возможности визуального рассуждения на 10 основных языках, включая английский, китайский, хинди, испанский, французский, арабский, бенгальский, русский, урду и японский, которые охватывают в общей сложности около 5 миллиардов человек (65% мирового населения). Наш подход включает полуавтоматический метод перевода для адаптации мультимодального набора инструкций с английского на целевые языки с использованием тонко настроенной крупной языковой модели, что обеспечивает высокую лингвистическую точность при минимальных ручных усилиях, способствуя масштабируемости. Включение разнообразных наборов инструкций помогает повысить общую производительность на множестве языков, особенно на тех, которые недостаточно представлены, таких как хинди, арабский, бенгальский и урду. Полученные модели обучаются на трех масштабах (1,7 млрд, 7 млрд и 13 млрд параметров), демонстрируя обобщаемость и масштабируемость, при этом наблюдаются значительные улучшения по сравнению с сильными базовыми моделями. Мы также предлагаем первый многоязычный мультимодальный бенчмарк для будущих подходов, позволяющий оценивать их способности к визуально-языковому рассуждению на разных языках. Код: https://github.com/mbzuai-oryx/PALO.
English
In pursuit of more inclusive Vision-Language Models (VLMs), this study
introduces a Large Multilingual Multimodal Model called Palo.
Palo offers visual reasoning capabilities in 10 major languages,
including English, Chinese, Hindi, Spanish, French, Arabic, Bengali, Russian,
Urdu, and Japanese, that span a total of sim5B people (65\% of the world
population). Our approach involves a semi-automated translation approach to
adapt the multimodal instruction dataset from English to the target languages
using a fine-tuned Large Language Model, thereby ensuring high linguistic
fidelity while allowing scalability due to minimal manual effort. The
incorporation of diverse instruction sets helps us boost overall performance
across multiple languages especially those that are underrepresented like
Hindi, Arabic, Bengali, and Urdu. The resulting models are trained across three
scales (1.7B, 7B and 13B parameters) to show the generalization and scalability
where we observe substantial improvements compared to strong baselines. We also
propose the first multilingual multimodal benchmark for the forthcoming
approaches to evaluate their vision-language reasoning capabilities across
languages. Code: https://github.com/mbzuai-oryx/PALO.