ChatPaper.aiChatPaper

InterLV-Search: 인터리브드 멀티모달 에이전틱 검색 벤치마킹

InterLV-Search: Benchmarking Interleaved Multimodal Agentic Search

May 8, 2026
저자: Bohan Hou, Jiuning Gu, Jiayan Guo, Ronghao Dang, Sicong Leng, Xin Li, Xuemeng Song, Jianfei Yang
cs.AI

초록

기존의 멀티모달 에이전트 검색 벤치마크는 멀티모달 검색과 시각적 브라우징을 평가하지만, 시각적 증거는 입력에 국한되거나 검색 궤적의 일부가 아닌 응답 종착점으로만 취급됩니다. 본 연구에서는 텍스트 및 시각적 증거가 이후 검색을 조건화하는 데 반복적으로 사용되는 **인터리브드 언어-비전 에이전트 검색(Interleaved Language-Vision Agentic Search)**을 위한 벤치마크인 **InterLV-Search**를 소개합니다. 이 벤치마크는 총 2,061개의 예제로 구성되며, 능동적 시각 증거 탐색, 통제된 오프라인 인터리브드 멀티모달 검색, 공개 웹 기반 인터리브드 멀티모달 검색의 세 가지 수준을 포함합니다. 기존 벤치마크와 달리, 증거 검색 과정에서 여러 개체 간 비교를 수반하는 **멀티모달 다중 분기 샘플**도 포함됩니다. Level 1과 Level 2는 자동화 파이프라인으로 구축하였고, Level 3는 기계 주도, 인간 감독의 공개 웹 파이프라인으로 구축하였습니다. 또한 표준화된 도구 사용, 궤적 기록 및 평가를 위한 **InterLV-Agent**를 제공합니다. 독점 및 오픈소스 멀티모달 에이전트를 대상으로 실험한 결과, 현재 시스템은 인터리브드 멀티모달 검색을 해결하는 데 여전히 크게 미치지 못하며, 최고 모델의 전체 정확도가 50% 미만으로 나타나 시각적 증거 탐색, 검색 통제 및 멀티모달 증거 통합의 과제를 강조합니다. 벤치마크 데이터와 평가 코드는 https://github.com/hbhalpha/InterLV-Search-Bench에서 공개합니다.
English
Existing benchmarks for multimodal agentic search evaluate multimodal search and visual browsing, but visual evidence is either confined to the input or treated as an answer endpoint rather than part of an interleaved search trajectory. We introduce InterLV-Search, a benchmark for Interleaved Language-Vision Agentic Search, in which textual and visual evidence is repeatedly used to condition later search. It contains 2,061 examples across three levels: active visual evidence seeking, controlled offline interleaved multimodal search, and open-web interleaved multimodal search. Beyond existing benchmarks, it also includes multimodal multi-branch samples that involve comparison between multiple entities during the evidence search. We construct Level 1 and Level 2 with automated pipelines and Level 3 with a machine-led, human-supervised open-web pipeline. We further provide InterLV-Agent for standardized tool use, trajectory logging, and evaluation. Experiments on proprietary and open-source multimodal agents show that current systems remain far from solving interleaved multimodal search, with the best model below 50% overall accuracy, highlighting challenges in visual evidence seeking, search control, and multimodal evidence integration. We release the benchmark data and evaluation code at https://github.com/hbhalpha/InterLV-Search-Bench
PDF50May 12, 2026