Попугай: Настройка многоязычных визуальных инструкций
Parrot: Multilingual Visual Instruction Tuning
June 4, 2024
Авторы: Hai-Long Sun, Da-Wei Zhou, Yang Li, Shiyin Lu, Chao Yi, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye
cs.AI
Аннотация
Быстрое развитие мультимодальных крупных языковых моделей (MLLM), таких как GPT-4V, сделало значительный шаг в направлении искусственного общего интеллекта. Существующие методы в основном сосредотачиваются на выравнивании визуальных кодировщиков с LLM через надзорное дообучение (SFT) для наделения LLM мультимодальными способностями, делая врожденную способность MLLM реагировать на несколько языков постепенно ухудшающейся по мере развития процесса обучения. Мы эмпирически обнаружили, что несбалансированные наборы данных SFT, в основном состоящие из англо-центричных пар изображений и текста, приводят к значительному снижению производительности на не-английских языках. Это происходит из-за неудачного выравнивания визуального кодировщика и LLM с мультиязычными токенами во время процесса SFT. В данной статье мы представляем Parrot, новый метод, который использует текстовое руководство для выравнивания визуальных токенов на уровне языка. Parrot делает визуальные токены зависимыми от разнообразных языковых входов и использует Множество Экспертов (MoE) для содействия выравниванию мультиязычных токенов. В частности, для улучшения выравнивания не-английских визуальных токенов мы вычисляем кросс-внимание с использованием начальных визуальных признаков и текстовых вложений, результат которого затем подается на маршрутизатор MoE для выбора наиболее релевантных экспертов. Выбранные эксперты впоследствии преобразуют начальные визуальные токены в языково-специфические визуальные токены. Более того, учитывая отсутствие текущих стандартов для оценки мультиязычных возможностей в данной области, мы собрали и предоставляем огромный мультиязычный мультимодальный бенчмарк, который включает 6 языков, 15 категорий и 12 000 вопросов, названный как MMMB. Наш метод не только демонстрирует передовую производительность на мультиязычном MMBench и MMMB, но также превосходит в широком спектре мультимодальных задач. Исходный код и набор данных для обучения Parrot будут общедоступными.
English
The rapid development of Multimodal Large Language Models (MLLMs) like GPT-4V
has marked a significant step towards artificial general intelligence. Existing
methods mainly focus on aligning vision encoders with LLMs through supervised
fine-tuning (SFT) to endow LLMs with multimodal abilities, making MLLMs'
inherent ability to react to multiple languages progressively deteriorate as
the training process evolves. We empirically find that the imbalanced SFT
datasets, primarily composed of English-centric image-text pairs, lead to
significantly reduced performance in non-English languages. This is due to the
failure of aligning the vision encoder and LLM with multilingual tokens during
the SFT process. In this paper, we introduce Parrot, a novel method that
utilizes textual guidance to drive visual token alignment at the language
level. Parrot makes the visual tokens condition on diverse language inputs and
uses Mixture-of-Experts (MoE) to promote the alignment of multilingual tokens.
Specifically, to enhance non-English visual tokens alignment, we compute the
cross-attention using the initial visual features and textual embeddings, the
result of which is then fed into the MoE router to select the most relevant
experts. The selected experts subsequently convert the initial visual tokens
into language-specific visual tokens. Moreover, considering the current lack of
benchmarks for evaluating multilingual capabilities within the field, we
collect and make available a Massive Multilingual Multimodal Benchmark which
includes 6 languages, 15 categories, and 12,000 questions, named as MMMB. Our
method not only demonstrates state-of-the-art performance on multilingual
MMBench and MMMB, but also excels across a broad range of multimodal tasks.
Both the source code and the training dataset of Parrot will be made publicly
available.Summary
AI-Generated Summary