ChatPaper.aiChatPaper

Parrot : Réglage d'instructions visuelles multilingues

Parrot: Multilingual Visual Instruction Tuning

June 4, 2024
Auteurs: Hai-Long Sun, Da-Wei Zhou, Yang Li, Shiyin Lu, Chao Yi, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye
cs.AI

Résumé

Le développement rapide des modèles de langage multimodaux de grande taille (MLLMs) comme GPT-4V marque une étape significative vers l'intelligence artificielle générale. Les méthodes existantes se concentrent principalement sur l'alignement des encodeurs visuels avec les modèles de langage (LLMs) par le biais d'un ajustement fin supervisé (SFT) pour doter les LLMs de capacités multimodales, ce qui entraîne une détérioration progressive de la capacité intrinsèque des MLLMs à réagir à plusieurs langues au fil du processus d'entraînement. Nous constatons empiriquement que les ensembles de données SFT déséquilibrés, principalement composés de paires image-texte centrées sur l'anglais, conduisent à une réduction significative des performances dans les langues non anglaises. Cela est dû à l'échec de l'alignement de l'encodeur visuel et du LLM avec des tokens multilingues pendant le processus SFT. Dans cet article, nous présentons Parrot, une méthode novatrice qui utilise des instructions textuelles pour piloter l'alignement des tokens visuels au niveau linguistique. Parrot conditionne les tokens visuels sur des entrées linguistiques variées et utilise un mélange d'experts (MoE) pour favoriser l'alignement des tokens multilingues. Plus précisément, pour améliorer l'alignement des tokens visuels non anglais, nous calculons l'attention croisée en utilisant les caractéristiques visuelles initiales et les embeddings textuels, dont le résultat est ensuite introduit dans le routeur MoE pour sélectionner les experts les plus pertinents. Les experts sélectionnés convertissent ensuite les tokens visuels initiaux en tokens visuels spécifiques à la langue. Par ailleurs, compte tenu du manque actuel de benchmarks pour évaluer les capacités multilingues dans ce domaine, nous collectons et mettons à disposition un Massive Multilingual Multimodal Benchmark (MMMB) qui inclut 6 langues, 15 catégories et 12 000 questions. Notre méthode démontre non seulement des performances de pointe sur les benchmarks multilingues MMBench et MMMB, mais excelle également dans un large éventail de tâches multimodales. Le code source et l'ensemble de données d'entraînement de Parrot seront rendus publics.
English
The rapid development of Multimodal Large Language Models (MLLMs) like GPT-4V has marked a significant step towards artificial general intelligence. Existing methods mainly focus on aligning vision encoders with LLMs through supervised fine-tuning (SFT) to endow LLMs with multimodal abilities, making MLLMs' inherent ability to react to multiple languages progressively deteriorate as the training process evolves. We empirically find that the imbalanced SFT datasets, primarily composed of English-centric image-text pairs, lead to significantly reduced performance in non-English languages. This is due to the failure of aligning the vision encoder and LLM with multilingual tokens during the SFT process. In this paper, we introduce Parrot, a novel method that utilizes textual guidance to drive visual token alignment at the language level. Parrot makes the visual tokens condition on diverse language inputs and uses Mixture-of-Experts (MoE) to promote the alignment of multilingual tokens. Specifically, to enhance non-English visual tokens alignment, we compute the cross-attention using the initial visual features and textual embeddings, the result of which is then fed into the MoE router to select the most relevant experts. The selected experts subsequently convert the initial visual tokens into language-specific visual tokens. Moreover, considering the current lack of benchmarks for evaluating multilingual capabilities within the field, we collect and make available a Massive Multilingual Multimodal Benchmark which includes 6 languages, 15 categories, and 12,000 questions, named as MMMB. Our method not only demonstrates state-of-the-art performance on multilingual MMBench and MMMB, but also excels across a broad range of multimodal tasks. Both the source code and the training dataset of Parrot will be made publicly available.

Summary

AI-Generated Summary

PDF392December 12, 2024