MM-BrowseComp: Всеобъемлющий эталонный тест для мультимодальных агентов веб-навигации
MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents
August 14, 2025
Авторы: Shilong Li, Xingyuan Bu, Wenjie Wang, Jiaheng Liu, Jun Dong, Haoyang He, Hao Lu, Haozhe Zhang, Chenchen Jing, Zhen Li, Chuanhao Li, Jiayi Tian, Chenchen Zhang, Tianhao Peng, Yancheng He, Jihao Gu, Yuanxing Zhang, Jian Yang, Ge Zhang, Wenhao Huang, Wangchunshu Zhou, Zhaoxiang Zhang, Ruizhe Ding, Shilei Wen
cs.AI
Аннотация
Искусственные интеллектуальные агенты с продвинутыми возможностями рассуждения и использования инструментов продемонстрировали впечатляющие результаты в веб-поиске для глубокого анализа. Хотя существующие тесты, такие как BrowseComp, оценивают эти способности к поиску, они в основном сосредоточены на текстовой информации, игнорируя распространённость мультимодального контента. Чтобы устранить этот пробел, мы представляем MM-BrowseComp — новый тест, состоящий из 224 сложных, тщательно разработанных вопросов, специально предназначенных для оценки способностей агентов к мультимодальному поиску и рассуждению. Эти вопросы часто включают изображения в формулировках, а ключевая информация, встречающаяся в процессе поиска и рассуждения, также может быть встроена в изображения или видео на веб-страницах. Следовательно, методы, полагающиеся исключительно на текст, оказываются недостаточными для нашего теста. Дополнительно мы предоставляем проверенный контрольный список для каждого вопроса, позволяющий проводить детальный анализ мультимодальных зависимостей и путей рассуждения. Наше всестороннее тестирование современных моделей на MM-BrowseComp показывает, что даже лучшие модели, такие как OpenAI o3 с инструментами, достигают точности лишь 29,02%, что подчеркивает неоптимальные мультимодальные возможности и отсутствие встроенного мультимодального рассуждения в текущих моделях.
English
AI agents with advanced reasoning and tool use capabilities have demonstrated
impressive performance in web browsing for deep search. While existing
benchmarks such as BrowseComp evaluate these browsing abilities, they primarily
focus on textual information, overlooking the prevalence of multimodal content.
To bridge this gap, we introduce MM-BrowseComp, a novel benchmark comprising
224 challenging, hand-crafted questions specifically designed to assess agents'
multimodal retrieval and reasoning capabilities. These questions often
incorporate images in prompts, and crucial information encountered during the
search and reasoning process may also be embedded within images or videos on
webpages. Consequently, methods relying solely on text prove insufficient for
our benchmark. Additionally, we provide a verified checklist for each question,
enabling fine-grained analysis of multimodal dependencies and reasoning paths.
Our comprehensive evaluation of state-of-the-art models on MM-BrowseComp
reveals that even top models like OpenAI o3 with tools achieve only 29.02\%
accuracy, highlighting the suboptimal multimodal capabilities and lack of
native multimodal reasoning in current models.