ChatPaper.aiChatPaper

InterLV-Search: インターリーブ型マルチモーダルエージェント検索のベンチマーキング

InterLV-Search: Benchmarking Interleaved Multimodal Agentic Search

May 8, 2026
著者: Bohan Hou, Jiuning Gu, Jiayan Guo, Ronghao Dang, Sicong Leng, Xin Li, Xuemeng Song, Jianfei Yang
cs.AI

要旨

既存のマルチモーダルエージェント検索のベンチマークは、マルチモーダル検索や視覚的ブラウジングを評価するが、視覚的証拠は入力に限定されるか、またはインターリーブされた検索軌跡の一部ではなく、回答の終点として扱われる。本稿では、テキストと視覚の証拠が繰り返し使用されて後続の検索を条件付ける、インターリーブ言語-ビジョンエージェント検索のためのベンチマークであるInterLV-Searchを提案する。本ベンチマークは、アクティブな視覚的証拠探索、制御されたオフラインのインターリーブマルチモーダル検索、オープンウェブのインターリーブマルチモーダル検索の3レベルにわたる2,061例を含む。既存のベンチマークに加えて、証拠探索中に複数のエンティティ間の比較を伴うマルチモーダルマルチブランチサンプルも含む。レベル1とレベル2は自動化パイプラインで構築し、レベル3は機械主導・人間監視型のオープンウェブパイプラインで構築する。さらに、標準化されたツール利用、軌跡ログ記録、評価のためのInterLV-Agentを提供する。プロプライエタリおよびオープンソースのマルチモーダルエージェントを用いた実験では、現行システムはインターリーブマルチモーダル検索を解決するには程遠く、最高のモデルでも全体の精度が50%未満であり、視覚的証拠探索、検索制御、マルチモーダル証拠統合における課題が浮き彫りになった。ベンチマークデータと評価コードはhttps://github.com/hbhalpha/InterLV-Search-Benchで公開する。
English
Existing benchmarks for multimodal agentic search evaluate multimodal search and visual browsing, but visual evidence is either confined to the input or treated as an answer endpoint rather than part of an interleaved search trajectory. We introduce InterLV-Search, a benchmark for Interleaved Language-Vision Agentic Search, in which textual and visual evidence is repeatedly used to condition later search. It contains 2,061 examples across three levels: active visual evidence seeking, controlled offline interleaved multimodal search, and open-web interleaved multimodal search. Beyond existing benchmarks, it also includes multimodal multi-branch samples that involve comparison between multiple entities during the evidence search. We construct Level 1 and Level 2 with automated pipelines and Level 3 with a machine-led, human-supervised open-web pipeline. We further provide InterLV-Agent for standardized tool use, trajectory logging, and evaluation. Experiments on proprietary and open-source multimodal agents show that current systems remain far from solving interleaved multimodal search, with the best model below 50% overall accuracy, highlighting challenges in visual evidence seeking, search control, and multimodal evidence integration. We release the benchmark data and evaluation code at https://github.com/hbhalpha/InterLV-Search-Bench
PDF50May 12, 2026