InterLV-Search : Évaluation comparative de la recherche agentique multimodale entrelacée

Résumé

Les référentiels existants pour la recherche agentive multimodale évaluent la recherche multimodale et la navigation visuelle, mais les preuves visuelles sont soit confinées à l'entrée, soit traitées comme un point d'arrivée plutôt que comme une partie d'une trajectoire de recherche entrelacée. Nous présentons InterLV-Search, un référentiel pour la recherche agentive à langage et vision entrelacés (Interleaved Language-Vision Agentic Search), dans lequel des preuves textuelles et visuelles sont utilisées de manière répétée pour conditionner les recherches ultérieures. Il contient 2 061 exemples répartis sur trois niveaux : recherche active de preuves visuelles, recherche multimodale entrelacée hors ligne contrôlée, et recherche multimodale entrelacée sur le web ouvert. En complément des référentiels existants, il inclut également des échantillons multimodaux à branches multiples impliquant une comparaison entre plusieurs entités au cours de la recherche de preuves. Nous construisons les niveaux 1 et 2 à l'aide de pipelines automatisés, et le niveau 3 via un pipeline sur le web ouvert mené par machine et supervisé par des humains. Nous fournissons également InterLV-Agent pour une utilisation standardisée des outils, la journalisation des trajectoires et l'évaluation. Des expériences menées sur des agents multimodaux propriétaires et open source montrent que les systèmes actuels restent loin de résoudre la recherche multimodale entrelacée, le meilleur modèle n'atteignant pas 50 % de précision globale, ce qui souligne les défis liés à la recherche de preuves visuelles, au contrôle de la recherche et à l'intégration de preuves multimodales. Nous publions les données du référentiel et le code d'évaluation à l'adresse https://github.com/hbhalpha/InterLV-Search-Bench.

English

Existing benchmarks for multimodal agentic search evaluate multimodal search and visual browsing, but visual evidence is either confined to the input or treated as an answer endpoint rather than part of an interleaved search trajectory. We introduce InterLV-Search, a benchmark for Interleaved Language-Vision Agentic Search, in which textual and visual evidence is repeatedly used to condition later search. It contains 2,061 examples across three levels: active visual evidence seeking, controlled offline interleaved multimodal search, and open-web interleaved multimodal search. Beyond existing benchmarks, it also includes multimodal multi-branch samples that involve comparison between multiple entities during the evidence search. We construct Level 1 and Level 2 with automated pipelines and Level 3 with a machine-led, human-supervised open-web pipeline. We further provide InterLV-Agent for standardized tool use, trajectory logging, and evaluation. Experiments on proprietary and open-source multimodal agents show that current systems remain far from solving interleaved multimodal search, with the best model below 50% overall accuracy, highlighting challenges in visual evidence seeking, search control, and multimodal evidence integration. We release the benchmark data and evaluation code at https://github.com/hbhalpha/InterLV-Search-Bench

InterLV-Search : Évaluation comparative de la recherche agentique multimodale entrelacée

InterLV-Search: Benchmarking Interleaved Multimodal Agentic Search

Résumé

Support