Parrot: Sintonizzazione Multilingue per Istruzioni Visive
Parrot: Multilingual Visual Instruction Tuning
June 4, 2024
Autori: Hai-Long Sun, Da-Wei Zhou, Yang Li, Shiyin Lu, Chao Yi, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye
cs.AI
Abstract
Il rapido sviluppo di Modelli Linguistici Multimodali di Grande Scala (MLLMs) come GPT-4V ha segnato un passo significativo verso l'intelligenza artificiale generale. I metodi esistenti si concentrano principalmente sull'allineamento degli encoder visivi con i LLM attraverso il fine-tuning supervisionato (SFT) per dotare i LLM di abilità multimodali, facendo sì che la capacità intrinseca degli MLLM di reagire a più lingue si deteriori progressivamente con l'avanzare del processo di addestramento. Empiricamente, abbiamo riscontrato che i dataset SFT sbilanciati, composti principalmente da coppie immagine-testo centrate sull'inglese, portano a una riduzione significativa delle prestazioni nelle lingue non inglesi. Ciò è dovuto al mancato allineamento dell'encoder visivo e del LLM con i token multilingue durante il processo SFT. In questo articolo, introduciamo Parrot, un metodo innovativo che utilizza la guida testuale per guidare l'allineamento dei token visivi a livello linguistico. Parrot condiziona i token visivi su input linguistici diversi e utilizza il Mixture-of-Experts (MoE) per promuovere l'allineamento dei token multilingue. Nello specifico, per migliorare l'allineamento dei token visivi non inglesi, calcoliamo l'attenzione incrociata utilizzando le caratteristiche visive iniziali e gli embedding testuali, il cui risultato viene poi inserito nel router MoE per selezionare gli esperti più rilevanti. Gli esperti selezionati convertono successivamente i token visivi iniziali in token visivi specifici per la lingua. Inoltre, considerando l'attuale mancanza di benchmark per valutare le capacità multilingue nel campo, abbiamo raccolto e reso disponibile un Massive Multilingual Multimodal Benchmark che include 6 lingue, 15 categorie e 12.000 domande, denominato MMMB. Il nostro metodo non solo dimostra prestazioni all'avanguardia su MMBench multilingue e MMMB, ma eccelle anche in un'ampia gamma di task multimodali. Sia il codice sorgente che il dataset di addestramento di Parrot saranno resi pubblicamente disponibili.
English
The rapid development of Multimodal Large Language Models (MLLMs) like GPT-4V
has marked a significant step towards artificial general intelligence. Existing
methods mainly focus on aligning vision encoders with LLMs through supervised
fine-tuning (SFT) to endow LLMs with multimodal abilities, making MLLMs'
inherent ability to react to multiple languages progressively deteriorate as
the training process evolves. We empirically find that the imbalanced SFT
datasets, primarily composed of English-centric image-text pairs, lead to
significantly reduced performance in non-English languages. This is due to the
failure of aligning the vision encoder and LLM with multilingual tokens during
the SFT process. In this paper, we introduce Parrot, a novel method that
utilizes textual guidance to drive visual token alignment at the language
level. Parrot makes the visual tokens condition on diverse language inputs and
uses Mixture-of-Experts (MoE) to promote the alignment of multilingual tokens.
Specifically, to enhance non-English visual tokens alignment, we compute the
cross-attention using the initial visual features and textual embeddings, the
result of which is then fed into the MoE router to select the most relevant
experts. The selected experts subsequently convert the initial visual tokens
into language-specific visual tokens. Moreover, considering the current lack of
benchmarks for evaluating multilingual capabilities within the field, we
collect and make available a Massive Multilingual Multimodal Benchmark which
includes 6 languages, 15 categories, and 12,000 questions, named as MMMB. Our
method not only demonstrates state-of-the-art performance on multilingual
MMBench and MMMB, but also excels across a broad range of multimodal tasks.
Both the source code and the training dataset of Parrot will be made publicly
available.