ChatPaper.aiChatPaper

PALO: Полиглотная крупная мультимодальная модель для 5 миллиардов человек

PALO: A Polyglot Large Multimodal Model for 5B People

February 22, 2024
Авторы: Muhammad Maaz, Hanoona Rasheed, Abdelrahman Shaker, Salman Khan, Hisham Cholakal, Rao M. Anwer, Tim Baldwin, Michael Felsberg, Fahad S. Khan
cs.AI

Аннотация

В стремлении к созданию более инклюзивных моделей обработки зрения и языка (Vision-Language Models, VLMs), данное исследование представляет крупную многоязычную мультимодальную модель под названием Palo. Palo предлагает возможности визуального рассуждения на 10 основных языках, включая английский, китайский, хинди, испанский, французский, арабский, бенгальский, русский, урду и японский, которые охватывают в общей сложности около 5 миллиардов человек (65% мирового населения). Наш подход включает полуавтоматический метод перевода для адаптации мультимодального набора инструкций с английского на целевые языки с использованием тонко настроенной крупной языковой модели, что обеспечивает высокую лингвистическую точность при минимальных ручных усилиях, способствуя масштабируемости. Включение разнообразных наборов инструкций помогает повысить общую производительность на множестве языков, особенно на тех, которые недостаточно представлены, таких как хинди, арабский, бенгальский и урду. Полученные модели обучаются на трех масштабах (1,7 млрд, 7 млрд и 13 млрд параметров), демонстрируя обобщаемость и масштабируемость, при этом наблюдаются значительные улучшения по сравнению с сильными базовыми моделями. Мы также предлагаем первый многоязычный мультимодальный бенчмарк для будущих подходов, позволяющий оценивать их способности к визуально-языковому рассуждению на разных языках. Код: https://github.com/mbzuai-oryx/PALO.
English
In pursuit of more inclusive Vision-Language Models (VLMs), this study introduces a Large Multilingual Multimodal Model called Palo. Palo offers visual reasoning capabilities in 10 major languages, including English, Chinese, Hindi, Spanish, French, Arabic, Bengali, Russian, Urdu, and Japanese, that span a total of sim5B people (65\% of the world population). Our approach involves a semi-automated translation approach to adapt the multimodal instruction dataset from English to the target languages using a fine-tuned Large Language Model, thereby ensuring high linguistic fidelity while allowing scalability due to minimal manual effort. The incorporation of diverse instruction sets helps us boost overall performance across multiple languages especially those that are underrepresented like Hindi, Arabic, Bengali, and Urdu. The resulting models are trained across three scales (1.7B, 7B and 13B parameters) to show the generalization and scalability where we observe substantial improvements compared to strong baselines. We also propose the first multilingual multimodal benchmark for the forthcoming approaches to evaluate their vision-language reasoning capabilities across languages. Code: https://github.com/mbzuai-oryx/PALO.
PDF252December 15, 2024