ChatPaper.aiChatPaper

MMDU: LVLM을 위한 멀티턴 멀티이미지 대화 이해 벤치마크 및 명령어 튜닝 데이터셋

MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs

June 17, 2024
저자: Ziyu Liu, Tao Chu, Yuhang Zang, Xilin Wei, Xiaoyi Dong, Pan Zhang, Zijian Liang, Yuanjun Xiong, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI

초록

다양한 모달리티의 인간 입력과 자연스럽고 의미 있는 대화를 생성하는 것은 대형 시각-언어 모델(LVLMs)의 기본적인 능력입니다. 현재 오픈소스 LVLMs는 단일 턴 단일 이미지 입력과 같은 단순한 시나리오에서 유망한 성능을 보이지만, 다중 턴 및 다중 이미지를 포함한 긴 문맥 역사에서의 지시를 따르는 것과 같은 실제 대화 시나리오에서는 부족함을 보입니다. 기존의 LVLM 벤치마크는 주로 단일 선택 질문이나 짧은 형식의 응답에 초점을 맞추고 있어, 실제 인간-AI 상호작용 애플리케이션에서 LVLMs의 능력을 충분히 평가하지 못합니다. 따라서 우리는 다중 턴 및 다중 이미지 대화에서 LVLMs의 능력을 평가하고 개선하기 위해 포괄적인 벤치마크인 MMDU와 대규모 지시 튜닝 데이터셋인 MMDU-45k를 소개합니다. 우리는 오픈소스 위키백과에서 관련 이미지와 텍스트 설명을 찾기 위해 클러스터링 알고리즘을 사용하고, GPT-4o 모델의 도움을 받아 인간 주석자가 질문-답변 쌍을 구성했습니다. MMDU는 최대 18k 이미지+텍스트 토큰, 20개의 이미지, 27개의 턴을 포함하며, 이는 기존 벤치마크보다 최소 5배 이상 길어 현재 LVLMs에 도전을 제기합니다. MMDU를 사용한 15개의 대표적인 LVLMs에 대한 심층 분석 결과, 오픈소스 LVLMs는 제한된 대화 지시 튜닝 데이터로 인해 폐쇄형 모델에 뒤처지는 것으로 나타났습니다. 우리는 MMDU-45k에서 오픈소스 LVLMs를 미세 조정함으로써 이 격차를 상당히 해결하고, 더 길고 정확한 대화를 생성하며, MMDU 및 기존 벤치마크(MMStar: +1.1%, MathVista: +1.5%, ChartQA: +1.2%)에서 점수를 향상시킬 수 있음을 입증했습니다. 우리의 기여는 현재 LVLM 모델과 실제 애플리케이션 요구 사항 간의 격차를 해소하는 길을 열어줍니다. 이 프로젝트는 https://github.com/Liuziyu77/MMDU에서 확인할 수 있습니다.
English
Generating natural and meaningful responses to communicate with multi-modal human inputs is a fundamental capability of Large Vision-Language Models(LVLMs). While current open-source LVLMs demonstrate promising performance in simplified scenarios such as single-turn single-image input, they fall short in real-world conversation scenarios such as following instructions in a long context history with multi-turn and multi-images. Existing LVLM benchmarks primarily focus on single-choice questions or short-form responses, which do not adequately assess the capabilities of LVLMs in real-world human-AI interaction applications. Therefore, we introduce MMDU, a comprehensive benchmark, and MMDU-45k, a large-scale instruction tuning dataset, designed to evaluate and improve LVLMs' abilities in multi-turn and multi-image conversations. We employ the clustering algorithm to ffnd the relevant images and textual descriptions from the open-source Wikipedia and construct the question-answer pairs by human annotators with the assistance of the GPT-4o model. MMDU has a maximum of 18k image+text tokens, 20 images, and 27 turns, which is at least 5x longer than previous benchmarks and poses challenges to current LVLMs. Our in-depth analysis of 15 representative LVLMs using MMDU reveals that open-source LVLMs lag behind closed-source counterparts due to limited conversational instruction tuning data. We demonstrate that ffne-tuning open-source LVLMs on MMDU-45k signiffcantly address this gap, generating longer and more accurate conversations, and improving scores on MMDU and existing benchmarks (MMStar: +1.1%, MathVista: +1.5%, ChartQA:+1.2%). Our contributions pave the way for bridging the gap between current LVLM models and real-world application demands. This project is available at https://github.com/Liuziyu77/MMDU.

Summary

AI-Generated Summary

PDF646December 6, 2024