InterLV-Search: Бенчмаркинг перемежающегося мультимодального агентного поиска
InterLV-Search: Benchmarking Interleaved Multimodal Agentic Search
May 8, 2026
Авторы: Bohan Hou, Jiuning Gu, Jiayan Guo, Ronghao Dang, Sicong Leng, Xin Li, Xuemeng Song, Jianfei Yang
cs.AI
Аннотация
Существующие эталоны для мультимодального агентного поиска оценивают мультимодальный поиск и визуальный просмотр, однако визуальные данные либо ограничиваются входными данными, либо рассматриваются как конечная точка ответа, а не как часть перемежающейся траектории поиска. Мы представляем InterLV-Search — эталон для перемежающегося языково-визуального агентного поиска (Interleaved Language-Vision Agentic Search), в котором текстовые и визуальные данные многократно используются для обусловливания последующих этапов поиска. Он содержит 2061 пример на трех уровнях: активный поиск визуальных данных, контролируемый офлайн-перемежающийся мультимодальный поиск и открытый веб-поиск с перемежающимися мультимодальными данными. В отличие от существующих эталонов, он также включает мультимодальные образцы с множественными ветвями, предполагающие сравнение нескольких объектов в процессе поиска данных. Уровни 1 и 2 построены с помощью автоматизированных конвейеров, а уровень 3 — с помощью машинно-управляемого, контролируемого человеком открытого веб-конвейера. Дополнительно мы предоставляем InterLV-Agent для стандартизированного использования инструментов, регистрации траекторий и оценки. Эксперименты на проприетарных мультимодальных агентах с открытым исходным кодом показывают, что современные системы далеки от решения задачи перемежающегося мультимодального поиска — лучшая модель демонстрирует общую точность ниже 50%, что подчеркивает проблемы в поиске визуальных данных, контроле поиска и интеграции мультимодальных доказательств. Мы публикуем данные эталона и код оценки по адресу https://github.com/hbhalpha/InterLV-Search-Bench.
English
Existing benchmarks for multimodal agentic search evaluate multimodal search and visual browsing, but visual evidence is either confined to the input or treated as an answer endpoint rather than part of an interleaved search trajectory. We introduce InterLV-Search, a benchmark for Interleaved Language-Vision Agentic Search, in which textual and visual evidence is repeatedly used to condition later search. It contains 2,061 examples across three levels: active visual evidence seeking, controlled offline interleaved multimodal search, and open-web interleaved multimodal search. Beyond existing benchmarks, it also includes multimodal multi-branch samples that involve comparison between multiple entities during the evidence search. We construct Level 1 and Level 2 with automated pipelines and Level 3 with a machine-led, human-supervised open-web pipeline. We further provide InterLV-Agent for standardized tool use, trajectory logging, and evaluation. Experiments on proprietary and open-source multimodal agents show that current systems remain far from solving interleaved multimodal search, with the best model below 50% overall accuracy, highlighting challenges in visual evidence seeking, search control, and multimodal evidence integration. We release the benchmark data and evaluation code at https://github.com/hbhalpha/InterLV-Search-Bench