InterLV-Search: Evaluación de Búsqueda Agéntica Multimodal Entrelazada

Resumen

Los puntos de referencia existentes para la búsqueda agentiva multimodal evalúan la búsqueda multimodal y la navegación visual, pero la evidencia visual se limita a la entrada o se trata como un punto final de respuesta en lugar de parte de una trayectoria de búsqueda intercalada. Presentamos InterLV-Search, un punto de referencia para la Búsqueda Agentiva Intercalada Lenguaje-Visión, en el que la evidencia textual y visual se utiliza repetidamente para condicionar búsquedas posteriores. Contiene 2,061 ejemplos en tres niveles: búsqueda activa de evidencia visual, búsqueda multimodal intercalada controlada sin conexión y búsqueda multimodal intercalada en la web abierta. Más allá de los puntos de referencia existentes, también incluye muestras multimodales de múltiples ramas que implican comparación entre múltiples entidades durante la búsqueda de evidencia. Construimos el Nivel 1 y el Nivel 2 con flujos automatizados y el Nivel 3 con un flujo en la web abierta supervisado por humanos y dirigido por máquina. Además, proporcionamos InterLV-Agent para el uso estandarizado de herramientas, registro de trayectorias y evaluación. Los experimentos con agentes multimodales propietarios y de código abierto muestran que los sistemas actuales distan mucho de resolver la búsqueda multimodal intercalada, con el mejor modelo por debajo del 50% de precisión general, lo que subraya los desafíos en la búsqueda de evidencia visual, el control de la búsqueda y la integración de evidencia multimodal. Publicamos los datos del punto de referencia y el código de evaluación en https://github.com/hbhalpha/InterLV-Search-Bench.

English

Existing benchmarks for multimodal agentic search evaluate multimodal search and visual browsing, but visual evidence is either confined to the input or treated as an answer endpoint rather than part of an interleaved search trajectory. We introduce InterLV-Search, a benchmark for Interleaved Language-Vision Agentic Search, in which textual and visual evidence is repeatedly used to condition later search. It contains 2,061 examples across three levels: active visual evidence seeking, controlled offline interleaved multimodal search, and open-web interleaved multimodal search. Beyond existing benchmarks, it also includes multimodal multi-branch samples that involve comparison between multiple entities during the evidence search. We construct Level 1 and Level 2 with automated pipelines and Level 3 with a machine-led, human-supervised open-web pipeline. We further provide InterLV-Agent for standardized tool use, trajectory logging, and evaluation. Experiments on proprietary and open-source multimodal agents show that current systems remain far from solving interleaved multimodal search, with the best model below 50% overall accuracy, highlighting challenges in visual evidence seeking, search control, and multimodal evidence integration. We release the benchmark data and evaluation code at https://github.com/hbhalpha/InterLV-Search-Bench

InterLV-Search: Evaluación de Búsqueda Agéntica Multimodal Entrelazada

InterLV-Search: Benchmarking Interleaved Multimodal Agentic Search

Resumen

Support