ChatPaper.aiChatPaper

MMDU: Um Benchmark de Compreensão de Diálogo com Múltiplos Turnos e Múltiplas Imagens e um Conjunto de Dados para Ajuste por Instrução em LVLMs

MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs

June 17, 2024
Autores: Ziyu Liu, Tao Chu, Yuhang Zang, Xilin Wei, Xiaoyi Dong, Pan Zhang, Zijian Liang, Yuanjun Xiong, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI

Resumo

Gerar respostas naturais e significativas para se comunicar com entradas humanas multimodais é uma capacidade fundamental dos Grandes Modelos de Visão e Linguagem (LVLMs). Embora os LVLMs de código aberto atuais demonstrem desempenho promissor em cenários simplificados, como entradas de imagem única e turno único, eles ficam aquém em cenários de conversação do mundo real, como seguir instruções em um histórico de contexto longo com múltiplos turnos e múltiplas imagens. Os benchmarks existentes para LVLMs focam principalmente em questões de escolha única ou respostas curtas, que não avaliam adequadamente as capacidades dos LVLMs em aplicações de interação humano-IA do mundo real. Portanto, introduzimos o MMDU, um benchmark abrangente, e o MMDU-45k, um grande conjunto de dados de ajuste de instruções, projetados para avaliar e melhorar as habilidades dos LVLMs em conversas com múltiplos turnos e múltiplas imagens. Empregamos um algoritmo de clustering para encontrar as imagens e descrições textuais relevantes da Wikipedia de código aberto e construímos pares de perguntas e respostas por anotadores humanos com a assistência do modelo GPT-4. O MMDU possui um máximo de 18 mil tokens de imagem+texto, 20 imagens e 27 turnos, o que é pelo menos 5 vezes maior do que os benchmarks anteriores e representa desafios para os LVLMs atuais. Nossa análise detalhada de 15 LVLMs representativos usando o MMDU revela que os LVLMs de código aberto ficam atrás dos modelos de código fechado devido à limitação de dados de ajuste de instruções conversacionais. Demonstramos que o ajuste fino de LVLMs de código aberto no MMDU-45k aborda significativamente essa lacuna, gerando conversas mais longas e precisas, e melhorando as pontuações no MMDU e em benchmarks existentes (MMStar: +1,1%, MathVista: +1,5%, ChartQA: +1,2%). Nossas contribuições abrem caminho para reduzir a lacuna entre os modelos LVLM atuais e as demandas de aplicações do mundo real. Este projeto está disponível em https://github.com/Liuziyu77/MMDU.
English
Generating natural and meaningful responses to communicate with multi-modal human inputs is a fundamental capability of Large Vision-Language Models(LVLMs). While current open-source LVLMs demonstrate promising performance in simplified scenarios such as single-turn single-image input, they fall short in real-world conversation scenarios such as following instructions in a long context history with multi-turn and multi-images. Existing LVLM benchmarks primarily focus on single-choice questions or short-form responses, which do not adequately assess the capabilities of LVLMs in real-world human-AI interaction applications. Therefore, we introduce MMDU, a comprehensive benchmark, and MMDU-45k, a large-scale instruction tuning dataset, designed to evaluate and improve LVLMs' abilities in multi-turn and multi-image conversations. We employ the clustering algorithm to ffnd the relevant images and textual descriptions from the open-source Wikipedia and construct the question-answer pairs by human annotators with the assistance of the GPT-4o model. MMDU has a maximum of 18k image+text tokens, 20 images, and 27 turns, which is at least 5x longer than previous benchmarks and poses challenges to current LVLMs. Our in-depth analysis of 15 representative LVLMs using MMDU reveals that open-source LVLMs lag behind closed-source counterparts due to limited conversational instruction tuning data. We demonstrate that ffne-tuning open-source LVLMs on MMDU-45k signiffcantly address this gap, generating longer and more accurate conversations, and improving scores on MMDU and existing benchmarks (MMStar: +1.1%, MathVista: +1.5%, ChartQA:+1.2%). Our contributions pave the way for bridging the gap between current LVLM models and real-world application demands. This project is available at https://github.com/Liuziyu77/MMDU.
PDF636December 6, 2024