ChatPaper.aiChatPaper

Parrot: Ajuste de Instrução Visual Multilíngue

Parrot: Multilingual Visual Instruction Tuning

June 4, 2024
Autores: Hai-Long Sun, Da-Wei Zhou, Yang Li, Shiyin Lu, Chao Yi, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye
cs.AI

Resumo

O rápido desenvolvimento de Modelos de Linguagem Multimodais de Grande Escala (MLLMs), como o GPT-4V, representa um passo significativo em direção à inteligência artificial geral. Os métodos existentes concentram-se principalmente no alinhamento de codificadores visuais com LLMs por meio de ajuste fino supervisionado (SFT) para dotar os LLMs de habilidades multimodais, fazendo com que a capacidade inerente dos MLLMs de reagir a múltiplos idiomas se deteriore progressivamente à medida que o processo de treinamento evolui. Empiricamente, observamos que os conjuntos de dados SFT desequilibrados, compostos principalmente por pares de imagem-texto centrados no inglês, levam a uma redução significativa no desempenho em idiomas não ingleses. Isso ocorre devido à falha no alinhamento do codificador visual e do LLM com tokens multilingues durante o processo de SFT. Neste artigo, apresentamos o Parrot, um método inovador que utiliza orientação textual para direcionar o alinhamento de tokens visuais no nível da linguagem. O Parrot faz com que os tokens visuais sejam condicionados a diversas entradas de idiomas e usa uma Mistura de Especialistas (MoE) para promover o alinhamento de tokens multilingues. Especificamente, para melhorar o alinhamento de tokens visuais não ingleses, calculamos a atenção cruzada usando as características visuais iniciais e os embeddings textuais, cujo resultado é então alimentado no roteador MoE para selecionar os especialistas mais relevantes. Os especialistas selecionados subsequentemente convertem os tokens visuais iniciais em tokens visuais específicos do idioma. Além disso, considerando a atual falta de benchmarks para avaliar capacidades multilingues no campo, coletamos e disponibilizamos um Benchmark Multimodal Multilingue Massivo, que inclui 6 idiomas, 15 categorias e 12.000 perguntas, denominado MMMB. Nosso método não apenas demonstra desempenho de ponta no MMBench e MMMB multilingues, mas também se destaca em uma ampla gama de tarefas multimodais. Tanto o código-fonte quanto o conjunto de dados de treinamento do Parrot serão disponibilizados publicamente.
English
The rapid development of Multimodal Large Language Models (MLLMs) like GPT-4V has marked a significant step towards artificial general intelligence. Existing methods mainly focus on aligning vision encoders with LLMs through supervised fine-tuning (SFT) to endow LLMs with multimodal abilities, making MLLMs' inherent ability to react to multiple languages progressively deteriorate as the training process evolves. We empirically find that the imbalanced SFT datasets, primarily composed of English-centric image-text pairs, lead to significantly reduced performance in non-English languages. This is due to the failure of aligning the vision encoder and LLM with multilingual tokens during the SFT process. In this paper, we introduce Parrot, a novel method that utilizes textual guidance to drive visual token alignment at the language level. Parrot makes the visual tokens condition on diverse language inputs and uses Mixture-of-Experts (MoE) to promote the alignment of multilingual tokens. Specifically, to enhance non-English visual tokens alignment, we compute the cross-attention using the initial visual features and textual embeddings, the result of which is then fed into the MoE router to select the most relevant experts. The selected experts subsequently convert the initial visual tokens into language-specific visual tokens. Moreover, considering the current lack of benchmarks for evaluating multilingual capabilities within the field, we collect and make available a Massive Multilingual Multimodal Benchmark which includes 6 languages, 15 categories, and 12,000 questions, named as MMMB. Our method not only demonstrates state-of-the-art performance on multilingual MMBench and MMMB, but also excels across a broad range of multimodal tasks. Both the source code and the training dataset of Parrot will be made publicly available.
PDF382December 12, 2024