MMDU: LVLM을 위한 멀티턴 멀티이미지 대화 이해 벤치마크 및 명령어 튜닝 데이터셋MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and
Instruction-Tuning Dataset for LVLMs
다양한 모달리티의 인간 입력과 자연스럽고 의미 있는 대화를 생성하는 것은 대형 시각-언어 모델(LVLMs)의 기본적인 능력입니다. 현재 오픈소스 LVLMs는 단일 턴 단일 이미지 입력과 같은 단순한 시나리오에서 유망한 성능을 보이지만, 다중 턴 및 다중 이미지를 포함한 긴 문맥 역사에서의 지시를 따르는 것과 같은 실제 대화 시나리오에서는 부족함을 보입니다. 기존의 LVLM 벤치마크는 주로 단일 선택 질문이나 짧은 형식의 응답에 초점을 맞추고 있어, 실제 인간-AI 상호작용 애플리케이션에서 LVLMs의 능력을 충분히 평가하지 못합니다. 따라서 우리는 다중 턴 및 다중 이미지 대화에서 LVLMs의 능력을 평가하고 개선하기 위해 포괄적인 벤치마크인 MMDU와 대규모 지시 튜닝 데이터셋인 MMDU-45k를 소개합니다. 우리는 오픈소스 위키백과에서 관련 이미지와 텍스트 설명을 찾기 위해 클러스터링 알고리즘을 사용하고, GPT-4o 모델의 도움을 받아 인간 주석자가 질문-답변 쌍을 구성했습니다. MMDU는 최대 18k 이미지+텍스트 토큰, 20개의 이미지, 27개의 턴을 포함하며, 이는 기존 벤치마크보다 최소 5배 이상 길어 현재 LVLMs에 도전을 제기합니다. MMDU를 사용한 15개의 대표적인 LVLMs에 대한 심층 분석 결과, 오픈소스 LVLMs는 제한된 대화 지시 튜닝 데이터로 인해 폐쇄형 모델에 뒤처지는 것으로 나타났습니다. 우리는 MMDU-45k에서 오픈소스 LVLMs를 미세 조정함으로써 이 격차를 상당히 해결하고, 더 길고 정확한 대화를 생성하며, MMDU 및 기존 벤치마크(MMStar: +1.1%, MathVista: +1.5%, ChartQA: +1.2%)에서 점수를 향상시킬 수 있음을 입증했습니다. 우리의 기여는 현재 LVLM 모델과 실제 애플리케이션 요구 사항 간의 격차를 해소하는 길을 열어줍니다. 이 프로젝트는 https://github.com/Liuziyu77/MMDU에서 확인할 수 있습니다.