ChatPaper.aiChatPaper

Parrot: Ajuste de Instrucción Visual Multilingüe

Parrot: Multilingual Visual Instruction Tuning

June 4, 2024
Autores: Hai-Long Sun, Da-Wei Zhou, Yang Li, Shiyin Lu, Chao Yi, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye
cs.AI

Resumen

El rápido desarrollo de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) como GPT-4V ha marcado un paso significativo hacia la inteligencia artificial general. Los métodos existentes se centran principalmente en alinear codificadores visuales con modelos de lenguaje (LLMs) mediante ajuste fino supervisado (SFT) para dotar a los LLMs de capacidades multimodales, lo que hace que la capacidad inherente de los MLLMs para responder a múltiples idiomas se deteriore progresivamente a medida que avanza el proceso de entrenamiento. Empíricamente, encontramos que los conjuntos de datos de SFT desequilibrados, compuestos principalmente por pares de imagen-texto centrados en inglés, conducen a un rendimiento significativamente reducido en idiomas no ingleses. Esto se debe a la falta de alineación entre el codificador visual y el LLM con tokens multilingües durante el proceso de SFT. En este artículo, presentamos Parrot, un método novedoso que utiliza guías textuales para impulsar la alineación de tokens visuales a nivel de idioma. Parrot hace que los tokens visuales se condicionen a diversas entradas de lenguaje y utiliza una Mezcla de Expertos (MoE) para promover la alineación de tokens multilingües. Específicamente, para mejorar la alineación de tokens visuales no ingleses, calculamos la atención cruzada utilizando las características visuales iniciales y las incrustaciones textuales, cuyo resultado se alimenta al enrutador MoE para seleccionar a los expertos más relevantes. Los expertos seleccionados convierten posteriormente los tokens visuales iniciales en tokens visuales específicos del idioma. Además, considerando la actual falta de puntos de referencia para evaluar capacidades multilingües en este campo, recopilamos y ponemos a disposición un Punto de Referencia Multimodal Multilingüe Masivo que incluye 6 idiomas, 15 categorías y 12,000 preguntas, denominado MMMB. Nuestro método no solo demuestra un rendimiento de vanguardia en MMBench multilingüe y MMMB, sino que también sobresale en una amplia gama de tareas multimodales. Tanto el código fuente como el conjunto de datos de entrenamiento de Parrot estarán disponibles públicamente.
English
The rapid development of Multimodal Large Language Models (MLLMs) like GPT-4V has marked a significant step towards artificial general intelligence. Existing methods mainly focus on aligning vision encoders with LLMs through supervised fine-tuning (SFT) to endow LLMs with multimodal abilities, making MLLMs' inherent ability to react to multiple languages progressively deteriorate as the training process evolves. We empirically find that the imbalanced SFT datasets, primarily composed of English-centric image-text pairs, lead to significantly reduced performance in non-English languages. This is due to the failure of aligning the vision encoder and LLM with multilingual tokens during the SFT process. In this paper, we introduce Parrot, a novel method that utilizes textual guidance to drive visual token alignment at the language level. Parrot makes the visual tokens condition on diverse language inputs and uses Mixture-of-Experts (MoE) to promote the alignment of multilingual tokens. Specifically, to enhance non-English visual tokens alignment, we compute the cross-attention using the initial visual features and textual embeddings, the result of which is then fed into the MoE router to select the most relevant experts. The selected experts subsequently convert the initial visual tokens into language-specific visual tokens. Moreover, considering the current lack of benchmarks for evaluating multilingual capabilities within the field, we collect and make available a Massive Multilingual Multimodal Benchmark which includes 6 languages, 15 categories, and 12,000 questions, named as MMMB. Our method not only demonstrates state-of-the-art performance on multilingual MMBench and MMMB, but also excels across a broad range of multimodal tasks. Both the source code and the training dataset of Parrot will be made publicly available.

Summary

AI-Generated Summary

PDF392December 12, 2024