Parrot: Multivisuele Instructieafstemming voor Meertaligheid
Parrot: Multilingual Visual Instruction Tuning
June 4, 2024
Auteurs: Hai-Long Sun, Da-Wei Zhou, Yang Li, Shiyin Lu, Chao Yi, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye
cs.AI
Samenvatting
De snelle ontwikkeling van Multimodale Grote Taalmodellen (MLLMs) zoals GPT-4V heeft een belangrijke stap gezet in de richting van kunstmatige algemene intelligentie. Bestaande methoden richten zich voornamelijk op het afstemmen van visuele encoders op LLMs door middel van supervised fine-tuning (SFT) om LLMs multimodale vaardigheden te geven, waardoor het inherente vermogen van MLLMs om op meerdere talen te reageren geleidelijk afneemt naarmate het trainingsproces vordert. Empirisch hebben we vastgesteld dat de onevenwichtige SFT-datasets, die voornamelijk bestaan uit Engelstalige afbeelding-tekstparen, leiden tot een aanzienlijk verminderde prestaties in niet-Engelse talen. Dit komt door het falen van het afstemmen van de visuele encoder en de LLM met meertalige tokens tijdens het SFT-proces. In dit artikel introduceren we Parrot, een nieuwe methode die tekstuele begeleiding gebruikt om visuele tokenafstemming op taalniveau te sturen. Parrot maakt de visuele tokens afhankelijk van diverse taalinputs en gebruikt Mixture-of-Experts (MoE) om de afstemming van meertalige tokens te bevorderen. Specifiek, om de afstemming van niet-Engelse visuele tokens te verbeteren, berekenen we de cross-attention met behulp van de initiële visuele kenmerken en tekstuele embeddings, waarvan het resultaat vervolgens wordt gevoed in de MoE-router om de meest relevante experts te selecteren. De geselecteerde experts zetten vervolgens de initiële visuele tokens om in taal-specifieke visuele tokens. Bovendien, gezien het huidige gebrek aan benchmarks voor het evalueren van meertalige capaciteiten binnen het veld, hebben we een Massive Multilingual Multimodal Benchmark verzameld en beschikbaar gesteld, die 6 talen, 15 categorieën en 12.000 vragen omvat, genaamd MMMB. Onze methode toont niet alleen state-of-the-art prestaties op meertalige MMBench en MMMB, maar blinkt ook uit in een breed scala aan multimodale taken. Zowel de broncode als de trainingsdataset van Parrot zullen publiekelijk beschikbaar worden gemaakt.
English
The rapid development of Multimodal Large Language Models (MLLMs) like GPT-4V
has marked a significant step towards artificial general intelligence. Existing
methods mainly focus on aligning vision encoders with LLMs through supervised
fine-tuning (SFT) to endow LLMs with multimodal abilities, making MLLMs'
inherent ability to react to multiple languages progressively deteriorate as
the training process evolves. We empirically find that the imbalanced SFT
datasets, primarily composed of English-centric image-text pairs, lead to
significantly reduced performance in non-English languages. This is due to the
failure of aligning the vision encoder and LLM with multilingual tokens during
the SFT process. In this paper, we introduce Parrot, a novel method that
utilizes textual guidance to drive visual token alignment at the language
level. Parrot makes the visual tokens condition on diverse language inputs and
uses Mixture-of-Experts (MoE) to promote the alignment of multilingual tokens.
Specifically, to enhance non-English visual tokens alignment, we compute the
cross-attention using the initial visual features and textual embeddings, the
result of which is then fed into the MoE router to select the most relevant
experts. The selected experts subsequently convert the initial visual tokens
into language-specific visual tokens. Moreover, considering the current lack of
benchmarks for evaluating multilingual capabilities within the field, we
collect and make available a Massive Multilingual Multimodal Benchmark which
includes 6 languages, 15 categories, and 12,000 questions, named as MMMB. Our
method not only demonstrates state-of-the-art performance on multilingual
MMBench and MMMB, but also excels across a broad range of multimodal tasks.
Both the source code and the training dataset of Parrot will be made publicly
available.