Parrot : Réglage d'instructions visuelles multilingues
Parrot: Multilingual Visual Instruction Tuning
June 4, 2024
Auteurs: Hai-Long Sun, Da-Wei Zhou, Yang Li, Shiyin Lu, Chao Yi, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye
cs.AI
Résumé
Le développement rapide des modèles de langage multimodaux de grande taille (MLLMs) comme GPT-4V marque une étape significative vers l'intelligence artificielle générale. Les méthodes existantes se concentrent principalement sur l'alignement des encodeurs visuels avec les modèles de langage (LLMs) par le biais d'un ajustement fin supervisé (SFT) pour doter les LLMs de capacités multimodales, ce qui entraîne une détérioration progressive de la capacité intrinsèque des MLLMs à réagir à plusieurs langues au fil du processus d'entraînement. Nous constatons empiriquement que les ensembles de données SFT déséquilibrés, principalement composés de paires image-texte centrées sur l'anglais, conduisent à une réduction significative des performances dans les langues non anglaises. Cela est dû à l'échec de l'alignement de l'encodeur visuel et du LLM avec des tokens multilingues pendant le processus SFT. Dans cet article, nous présentons Parrot, une méthode novatrice qui utilise des instructions textuelles pour piloter l'alignement des tokens visuels au niveau linguistique. Parrot conditionne les tokens visuels sur des entrées linguistiques variées et utilise un mélange d'experts (MoE) pour favoriser l'alignement des tokens multilingues. Plus précisément, pour améliorer l'alignement des tokens visuels non anglais, nous calculons l'attention croisée en utilisant les caractéristiques visuelles initiales et les embeddings textuels, dont le résultat est ensuite introduit dans le routeur MoE pour sélectionner les experts les plus pertinents. Les experts sélectionnés convertissent ensuite les tokens visuels initiaux en tokens visuels spécifiques à la langue. Par ailleurs, compte tenu du manque actuel de benchmarks pour évaluer les capacités multilingues dans ce domaine, nous collectons et mettons à disposition un Massive Multilingual Multimodal Benchmark (MMMB) qui inclut 6 langues, 15 catégories et 12 000 questions. Notre méthode démontre non seulement des performances de pointe sur les benchmarks multilingues MMBench et MMMB, mais excelle également dans un large éventail de tâches multimodales. Le code source et l'ensemble de données d'entraînement de Parrot seront rendus publics.
English
The rapid development of Multimodal Large Language Models (MLLMs) like GPT-4V
has marked a significant step towards artificial general intelligence. Existing
methods mainly focus on aligning vision encoders with LLMs through supervised
fine-tuning (SFT) to endow LLMs with multimodal abilities, making MLLMs'
inherent ability to react to multiple languages progressively deteriorate as
the training process evolves. We empirically find that the imbalanced SFT
datasets, primarily composed of English-centric image-text pairs, lead to
significantly reduced performance in non-English languages. This is due to the
failure of aligning the vision encoder and LLM with multilingual tokens during
the SFT process. In this paper, we introduce Parrot, a novel method that
utilizes textual guidance to drive visual token alignment at the language
level. Parrot makes the visual tokens condition on diverse language inputs and
uses Mixture-of-Experts (MoE) to promote the alignment of multilingual tokens.
Specifically, to enhance non-English visual tokens alignment, we compute the
cross-attention using the initial visual features and textual embeddings, the
result of which is then fed into the MoE router to select the most relevant
experts. The selected experts subsequently convert the initial visual tokens
into language-specific visual tokens. Moreover, considering the current lack of
benchmarks for evaluating multilingual capabilities within the field, we
collect and make available a Massive Multilingual Multimodal Benchmark which
includes 6 languages, 15 categories, and 12,000 questions, named as MMMB. Our
method not only demonstrates state-of-the-art performance on multilingual
MMBench and MMMB, but also excels across a broad range of multimodal tasks.
Both the source code and the training dataset of Parrot will be made publicly
available.Summary
AI-Generated Summary