MultiVerse : Un benchmark de conversation multi-tours pour l'évaluation des grands modèles de vision et de langage
MultiVerse: A Multi-Turn Conversation Benchmark for Evaluating Large Vision and Language Models
October 18, 2025
papers.authors: Young-Jun Lee, Byung-Kwan Lee, Jianshu Zhang, Yechan Hwang, Byungsoo Ko, Han-Gyu Kim, Dongyu Yao, Xuankun Rong, Eojin Joo, Seung-Ho Han, Bowon Ko, Ho-Jin Choi
cs.AI
papers.abstract
Les modèles vision-langage (VLMs) ont démontré des capacités impressionnantes sur des benchmarks à tour unique, mais les applications réelles exigent souvent des dialogues multi-tours plus complexes. Les jeux de données multi-tours existants (par exemple, MMDU, ConvBench) ne capturent que partiellement l'étendue et la profondeur des scénarios conversationnels rencontrés par les utilisateurs. Dans ce travail, nous présentons MultiVerse, un nouveau benchmark de conversations multi-tours comprenant 647 dialogues - chacun comptant en moyenne quatre tours - dérivés d'un ensemble diversifié de 12 benchmarks populaires d'évaluation de VLMs. Avec 484 tâches et 484 objectifs d'interaction, MultiVerse couvre un large éventail de sujets, allant des connaissances factuelles et de la perception à des tâches de raisonnement avancé telles que les mathématiques et la programmation. Pour faciliter une évaluation robuste, nous proposons une méthode d'évaluation basée sur une liste de vérification qui utilise GPT-4o comme évaluateur automatisé, mesurant les performances sur 37 aspects clés, notamment la précision perceptuelle, la clarté linguistique et l'exactitude factuelle. Nous évaluons 18 VLMs sur MultiVerse, révélant que même les modèles les plus performants (par exemple, GPT-4o) n'atteignent qu'un taux de réussite de 50 % dans les conversations multi-tours complexes, soulignant la nature exigeante du jeu de données. Notamment, nous constatons que la fourniture du contexte complet du dialogue améliore significativement les performances des modèles plus petits ou plus faibles, mettant en évidence l'importance de l'apprentissage en contexte. Nous pensons que MultiVerse représente un paysage essentiel pour évaluer les capacités d'interaction multi-tours des VLMs.
English
Vision-and-Language Models (VLMs) have shown impressive capabilities on
single-turn benchmarks, yet real-world applications often demand more intricate
multi-turn dialogues. Existing multi-turn datasets (e.g, MMDU, ConvBench) only
partially capture the breadth and depth of conversational scenarios encountered
by users. In this work, we introduce MultiVerse, a novel multi-turn
conversation benchmark featuring 647 dialogues - each averaging four turns -
derived from a diverse set of 12 popular VLM evaluation benchmarks. With 484
tasks and 484 interaction goals, MultiVerse covers a wide range of topics, from
factual knowledge and perception to advanced reasoning tasks such as
mathematics and coding. To facilitate robust assessment, we propose a
checklist-based evaluation method that leverages GPT-4o as the automated
evaluator, measuring performance across 37 key aspects, including perceptual
accuracy, linguistic clarity, and factual correctness. We evaluate 18 VLMs on
MultiVerse, revealing that even the strongest models (e.g., GPT-4o) achieve
only a 50% success rate in complex multi-turn conversations, highlighting the
dataset's challenging nature. Notably, we find that providing full dialogue
context significantly enhances performance for smaller or weaker models,
emphasizing the importance of in-context learning. We believe MultiVerse is a
landscape of evaluating multi-turn interaction abilities for VLMs.