Parrot: 다국어 시각적 명령어 튜닝
Parrot: Multilingual Visual Instruction Tuning
June 4, 2024
저자: Hai-Long Sun, Da-Wei Zhou, Yang Li, Shiyin Lu, Chao Yi, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye
cs.AI
초록
GPT-4V와 같은 멀티모달 대형 언어 모델(MLLM)의 급속한 발전은 인공 일반 지능(AGI)으로 나아가는 중요한 단계를 나타냅니다. 기존 방법들은 주로 지도 미세 조정(SFT)을 통해 시각 인코더와 대형 언어 모델(LLM)을 정렬함으로써 LLM에 멀티모달 능력을 부여하는 데 초점을 맞추고 있으며, 이로 인해 학습 과정이 진행됨에 따라 MLLM의 다국어 반응 능력이 점차 저하되고 있습니다. 우리는 실험적으로 영어 중심의 이미지-텍스트 쌍으로 구성된 불균형 SFT 데이터셋이 비영어 언어에서의 성능을 크게 감소시킨다는 사실을 발견했습니다. 이는 SFT 과정에서 시각 인코더와 LLM이 다국어 토큰과 제대로 정렬되지 못했기 때문입니다. 본 논문에서는 텍스트 지침을 활용하여 언어 수준에서 시각 토큰 정렬을 유도하는 새로운 방법인 Parrot을 소개합니다. Parrot은 다양한 언어 입력에 따라 시각 토큰을 조건화하고, 전문가 혼합(MoE)을 사용하여 다국어 토큰의 정렬을 촉진합니다. 구체적으로, 비영어 시각 토큰 정렬을 강화하기 위해 초기 시각 특징과 텍스트 임베딩을 사용하여 교차 주의를 계산하고, 그 결과를 MoE 라우터에 입력하여 가장 관련성이 높은 전문가를 선택합니다. 선택된 전문가는 이후 초기 시각 토큰을 언어별 시각 토큰으로 변환합니다. 또한, 현재 이 분야에서 다국어 능력을 평가하기 위한 벤치마크가 부족한 점을 고려하여, 6개 언어, 15개 카테고리, 12,000개의 질문으로 구성된 대규모 다국어 멀티모달 벤치마크(MMMB)를 수집 및 공개합니다. 우리의 방법은 다국어 MMBench와 MMMB에서 최첨단 성능을 보여줄 뿐만 아니라, 다양한 멀티모달 작업에서도 우수한 성과를 거둡니다. Parrot의 소스 코드와 학습 데이터셋은 모두 공개될 예정입니다.
English
The rapid development of Multimodal Large Language Models (MLLMs) like GPT-4V
has marked a significant step towards artificial general intelligence. Existing
methods mainly focus on aligning vision encoders with LLMs through supervised
fine-tuning (SFT) to endow LLMs with multimodal abilities, making MLLMs'
inherent ability to react to multiple languages progressively deteriorate as
the training process evolves. We empirically find that the imbalanced SFT
datasets, primarily composed of English-centric image-text pairs, lead to
significantly reduced performance in non-English languages. This is due to the
failure of aligning the vision encoder and LLM with multilingual tokens during
the SFT process. In this paper, we introduce Parrot, a novel method that
utilizes textual guidance to drive visual token alignment at the language
level. Parrot makes the visual tokens condition on diverse language inputs and
uses Mixture-of-Experts (MoE) to promote the alignment of multilingual tokens.
Specifically, to enhance non-English visual tokens alignment, we compute the
cross-attention using the initial visual features and textual embeddings, the
result of which is then fed into the MoE router to select the most relevant
experts. The selected experts subsequently convert the initial visual tokens
into language-specific visual tokens. Moreover, considering the current lack of
benchmarks for evaluating multilingual capabilities within the field, we
collect and make available a Massive Multilingual Multimodal Benchmark which
includes 6 languages, 15 categories, and 12,000 questions, named as MMMB. Our
method not only demonstrates state-of-the-art performance on multilingual
MMBench and MMMB, but also excels across a broad range of multimodal tasks.
Both the source code and the training dataset of Parrot will be made publicly
available.Summary
AI-Generated Summary