Papagei: Mehrsprachige visuelle Anweisungsabstimmung
Parrot: Multilingual Visual Instruction Tuning
June 4, 2024
Autoren: Hai-Long Sun, Da-Wei Zhou, Yang Li, Shiyin Lu, Chao Yi, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye
cs.AI
Zusammenfassung
Die schnelle Entwicklung von Multimodalen Großen Sprachmodellen (MLLMs) wie GPT-4V hat einen bedeutenden Schritt in Richtung künstlicher allgemeiner Intelligenz markiert. Bestehende Methoden konzentrieren sich hauptsächlich darauf, Vision-Encoder mit LLMs durch überwachtes Feintuning (SFT) auszurichten, um den LLMs multimodale Fähigkeiten zu verleihen, wodurch die inhärente Fähigkeit von MLLMs, auf mehrere Sprachen zu reagieren, im Laufe des Trainingsprozesses zunehmend abnimmt. Wir stellen empirisch fest, dass die unausgeglichenen SFT-Datensätze, die hauptsächlich aus englischzentrierten Bild-Text-Paaren bestehen, zu einer signifikant reduzierten Leistung in nicht-englischen Sprachen führen. Dies liegt am Scheitern der Ausrichtung des Vision-Encoders und LLMs mit mehrsprachigen Tokens während des SFT-Prozesses. In diesem Papier stellen wir Parrot vor, eine neuartige Methode, die textuelle Anleitung nutzt, um die visuelle Token-Ausrichtung auf Sprachebene voranzutreiben. Parrot lässt die visuellen Tokens von verschiedenen Spracheingaben abhängen und verwendet Mixture-of-Experts (MoE), um die Ausrichtung von mehrsprachigen Tokens zu fördern. Insbesondere zur Verbesserung der Ausrichtung nicht-englischer visueller Tokens berechnen wir die Kreuz-Aufmerksamkeit unter Verwendung der ursprünglichen visuellen Merkmale und textuellen Einbettungen, deren Ergebnis dann in den MoE-Router eingespeist wird, um die relevantesten Experten auszuwählen. Die ausgewählten Experten wandeln anschließend die ursprünglichen visuellen Tokens in sprachspezifische visuelle Tokens um. Darüber hinaus, angesichts des aktuellen Mangels an Benchmarks zur Bewertung mehrsprachiger Fähigkeiten in diesem Bereich, sammeln wir und stellen einen Massiven Multilingualen Multimodalen Benchmark zur Verfügung, der 6 Sprachen, 15 Kategorien und 12.000 Fragen umfasst, genannt MMMB. Unsere Methode zeigt nicht nur eine Spitzenleistung auf dem mehrsprachigen MMBench und MMMB, sondern überzeugt auch bei einer Vielzahl von multimodalen Aufgaben. Sowohl der Quellcode als auch der Trainingsdatensatz von Parrot werden öffentlich zugänglich gemacht.
English
The rapid development of Multimodal Large Language Models (MLLMs) like GPT-4V
has marked a significant step towards artificial general intelligence. Existing
methods mainly focus on aligning vision encoders with LLMs through supervised
fine-tuning (SFT) to endow LLMs with multimodal abilities, making MLLMs'
inherent ability to react to multiple languages progressively deteriorate as
the training process evolves. We empirically find that the imbalanced SFT
datasets, primarily composed of English-centric image-text pairs, lead to
significantly reduced performance in non-English languages. This is due to the
failure of aligning the vision encoder and LLM with multilingual tokens during
the SFT process. In this paper, we introduce Parrot, a novel method that
utilizes textual guidance to drive visual token alignment at the language
level. Parrot makes the visual tokens condition on diverse language inputs and
uses Mixture-of-Experts (MoE) to promote the alignment of multilingual tokens.
Specifically, to enhance non-English visual tokens alignment, we compute the
cross-attention using the initial visual features and textual embeddings, the
result of which is then fed into the MoE router to select the most relevant
experts. The selected experts subsequently convert the initial visual tokens
into language-specific visual tokens. Moreover, considering the current lack of
benchmarks for evaluating multilingual capabilities within the field, we
collect and make available a Massive Multilingual Multimodal Benchmark which
includes 6 languages, 15 categories, and 12,000 questions, named as MMMB. Our
method not only demonstrates state-of-the-art performance on multilingual
MMBench and MMMB, but also excels across a broad range of multimodal tasks.
Both the source code and the training dataset of Parrot will be made publicly
available.Summary
AI-Generated Summary