MMLongBench: 長文脈視覚言語モデルの効果的かつ徹底的なベンチマーキング
MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly
May 15, 2025
著者: Zhaowei Wang, Wenhao Yu, Xiyu Ren, Jipeng Zhang, Yu Zhao, Rohit Saxena, Liang Cheng, Ginny Wong, Simon See, Pasquale Minervini, Yangqiu Song, Mark Steedman
cs.AI
要旨
大規模視覚言語モデルのコンテキストウィンドウの急速な拡張により、数百枚の画像とテキストトークンを単一のフォワードパスで処理可能な長文脈視覚言語モデル(LCVLM)が登場しました。本研究では、LCVLMを効果的かつ徹底的に評価するため、多様な長文脈視覚言語タスクを網羅した初のベンチマークであるMMLongBenchを紹介します。MMLongBenchは、Visual RAGやMany-Shot ICLなど5つのカテゴリにまたがる13,331の例で構成されており、様々な自然画像や合成画像を含む幅広い画像タイプをカバーしています。異なる入力長に対するモデルの堅牢性を評価するため、視覚パッチとテキストトークンを組み合わせたクロスモーダルトークン化スキームを用いて、全ての例を5つの標準化された入力長(8K-128Kトークン)で提供します。46のクローズドソースおよびオープンソースLCVLMを徹底的にベンチマークし、現在のモデルの視覚言語長文脈能力に関する包括的な分析を提供します。その結果、以下のことが明らかになりました:i)単一タスクの性能は全体的な長文脈能力の弱い代理指標である、ii)クローズドソースとオープンソースのモデル共に長文脈視覚言語タスクで課題に直面しており、今後の大幅な改善の余地がある、iii)推論能力が高いモデルほど長文脈性能が優れる傾向がある。幅広いタスクカバレッジ、様々な画像タイプ、厳密な長さ制御を提供することで、MMLongBenchは次世代LCVLMの診断と進化に欠かせない基盤を提供します。
English
The rapid extension of context windows in large vision-language models has
given rise to long-context vision-language models (LCVLMs), which are capable
of handling hundreds of images with interleaved text tokens in a single forward
pass. In this work, we introduce MMLongBench, the first benchmark covering a
diverse set of long-context vision-language tasks, to evaluate LCVLMs
effectively and thoroughly. MMLongBench is composed of 13,331 examples spanning
five different categories of downstream tasks, such as Visual RAG and Many-Shot
ICL. It also provides broad coverage of image types, including various natural
and synthetic images. To assess the robustness of the models to different input
lengths, all examples are delivered at five standardized input lengths (8K-128K
tokens) via a cross-modal tokenization scheme that combines vision patches and
text tokens. Through a thorough benchmarking of 46 closed-source and
open-source LCVLMs, we provide a comprehensive analysis of the current models'
vision-language long-context ability. Our results show that: i) performance on
a single task is a weak proxy for overall long-context capability; ii) both
closed-source and open-source models face challenges in long-context
vision-language tasks, indicating substantial room for future improvement; iii)
models with stronger reasoning ability tend to exhibit better long-context
performance. By offering wide task coverage, various image types, and rigorous
length control, MMLongBench provides the missing foundation for diagnosing and
advancing the next generation of LCVLMs.Summary
AI-Generated Summary