マルチバース:大規模視覚・言語モデルを評価するための多ターン会話ベンチマーク
MultiVerse: A Multi-Turn Conversation Benchmark for Evaluating Large Vision and Language Models
October 18, 2025
著者: Young-Jun Lee, Byung-Kwan Lee, Jianshu Zhang, Yechan Hwang, Byungsoo Ko, Han-Gyu Kim, Dongyu Yao, Xuankun Rong, Eojin Joo, Seung-Ho Han, Bowon Ko, Ho-Jin Choi
cs.AI
要旨
視覚と言語を統合したモデル(Vision-and-Language Models, VLMs)は、単一ターンのベンチマークにおいて印象的な性能を示しているが、現実世界のアプリケーションではより複雑な多ターン対話が求められることが多い。既存の多ターンデータセット(例:MMDU、ConvBench)は、ユーザーが遭遇する会話シナリオの広がりと深さを部分的にしか捉えていない。本研究では、12の多様なVLM評価ベンチマークから導出された647の対話(各対話は平均4ターン)を特徴とする新しい多ターン会話ベンチマーク「MultiVerse」を提案する。484のタスクと484のインタラクション目標を備えたMultiVerseは、事実知識や知覚から数学やコーディングなどの高度な推論タスクまで、幅広いトピックをカバーしている。堅牢な評価を促進するため、GPT-4oを自動評価者として活用したチェックリストベースの評価手法を提案し、知覚精度、言語的明瞭さ、事実の正確性など37の主要な側面にわたって性能を測定する。MultiVerseを用いて18のVLMを評価した結果、最も強力なモデル(例:GPT-4o)でさえ複雑な多ターン会話において50%の成功率しか達成できないことが明らかとなり、データセットの挑戦的な性質が浮き彫りとなった。特に、完全な対話コンテキストを提供することが、小型または弱いモデルの性能を大幅に向上させることを発見し、コンテキスト内学習の重要性を強調した。我々は、MultiVerseがVLMの多ターンインタラクション能力を評価するための重要な基盤であると考える。
English
Vision-and-Language Models (VLMs) have shown impressive capabilities on
single-turn benchmarks, yet real-world applications often demand more intricate
multi-turn dialogues. Existing multi-turn datasets (e.g, MMDU, ConvBench) only
partially capture the breadth and depth of conversational scenarios encountered
by users. In this work, we introduce MultiVerse, a novel multi-turn
conversation benchmark featuring 647 dialogues - each averaging four turns -
derived from a diverse set of 12 popular VLM evaluation benchmarks. With 484
tasks and 484 interaction goals, MultiVerse covers a wide range of topics, from
factual knowledge and perception to advanced reasoning tasks such as
mathematics and coding. To facilitate robust assessment, we propose a
checklist-based evaluation method that leverages GPT-4o as the automated
evaluator, measuring performance across 37 key aspects, including perceptual
accuracy, linguistic clarity, and factual correctness. We evaluate 18 VLMs on
MultiVerse, revealing that even the strongest models (e.g., GPT-4o) achieve
only a 50% success rate in complex multi-turn conversations, highlighting the
dataset's challenging nature. Notably, we find that providing full dialogue
context significantly enhances performance for smaller or weaker models,
emphasizing the importance of in-context learning. We believe MultiVerse is a
landscape of evaluating multi-turn interaction abilities for VLMs.