MultiVerse : Un benchmark de conversation multi-tours pour l'évaluation des grands modèles de vision et de langage

papers.abstract

Les modèles vision-langage (VLMs) ont démontré des capacités impressionnantes sur des benchmarks à tour unique, mais les applications réelles exigent souvent des dialogues multi-tours plus complexes. Les jeux de données multi-tours existants (par exemple, MMDU, ConvBench) ne capturent que partiellement l'étendue et la profondeur des scénarios conversationnels rencontrés par les utilisateurs. Dans ce travail, nous présentons MultiVerse, un nouveau benchmark de conversations multi-tours comprenant 647 dialogues - chacun comptant en moyenne quatre tours - dérivés d'un ensemble diversifié de 12 benchmarks populaires d'évaluation de VLMs. Avec 484 tâches et 484 objectifs d'interaction, MultiVerse couvre un large éventail de sujets, allant des connaissances factuelles et de la perception à des tâches de raisonnement avancé telles que les mathématiques et la programmation. Pour faciliter une évaluation robuste, nous proposons une méthode d'évaluation basée sur une liste de vérification qui utilise GPT-4o comme évaluateur automatisé, mesurant les performances sur 37 aspects clés, notamment la précision perceptuelle, la clarté linguistique et l'exactitude factuelle. Nous évaluons 18 VLMs sur MultiVerse, révélant que même les modèles les plus performants (par exemple, GPT-4o) n'atteignent qu'un taux de réussite de 50 % dans les conversations multi-tours complexes, soulignant la nature exigeante du jeu de données. Notamment, nous constatons que la fourniture du contexte complet du dialogue améliore significativement les performances des modèles plus petits ou plus faibles, mettant en évidence l'importance de l'apprentissage en contexte. Nous pensons que MultiVerse représente un paysage essentiel pour évaluer les capacités d'interaction multi-tours des VLMs.

English

Vision-and-Language Models (VLMs) have shown impressive capabilities on single-turn benchmarks, yet real-world applications often demand more intricate multi-turn dialogues. Existing multi-turn datasets (e.g, MMDU, ConvBench) only partially capture the breadth and depth of conversational scenarios encountered by users. In this work, we introduce MultiVerse, a novel multi-turn conversation benchmark featuring 647 dialogues - each averaging four turns - derived from a diverse set of 12 popular VLM evaluation benchmarks. With 484 tasks and 484 interaction goals, MultiVerse covers a wide range of topics, from factual knowledge and perception to advanced reasoning tasks such as mathematics and coding. To facilitate robust assessment, we propose a checklist-based evaluation method that leverages GPT-4o as the automated evaluator, measuring performance across 37 key aspects, including perceptual accuracy, linguistic clarity, and factual correctness. We evaluate 18 VLMs on MultiVerse, revealing that even the strongest models (e.g., GPT-4o) achieve only a 50% success rate in complex multi-turn conversations, highlighting the dataset's challenging nature. Notably, we find that providing full dialogue context significantly enhances performance for smaller or weaker models, emphasizing the importance of in-context learning. We believe MultiVerse is a landscape of evaluating multi-turn interaction abilities for VLMs.

MultiVerse : Un benchmark de conversation multi-tours pour l'évaluation des grands modèles de vision et de langage

MultiVerse: A Multi-Turn Conversation Benchmark for Evaluating Large Vision and Language Models

papers.abstract

Support