InterLV-Search: benchmarken van interleaved multimodaal agentisch zoeken

Samenvatting

Bestaande benchmarks voor multimodaal agentisch zoeken evalueren multimodaal zoeken en visueel browsen, maar visueel bewijs wordt ofwel beperkt tot de invoer of behandeld als een antwoord-eindpunt in plaats van als onderdeel van een verweven zoektraject. We introduceren InterLV-Search, een benchmark voor Interleaved Language-Vision Agentic Search (verweven taal-visie agentisch zoeken), waarin tekstueel en visueel bewijs herhaaldelijk wordt gebruikt om later zoeken te conditioneren. Het bevat 2.061 voorbeelden verdeeld over drie niveaus: actief zoeken naar visueel bewijs, gecontroleerd offline verweven multimodaal zoeken, en open-web verweven multimodaal zoeken. Naast bestaande benchmarks bevat het ook multimodale meertakkige voorbeelden die vergelijking tussen meerdere entiteiten tijdens het bewijszocken omvatten. We construeren Niveau 1 en Niveau 2 met geautomatiseerde pijplijnen en Niveau 3 met een machinaal geleide, door mensen gesuperviseerde open-web pijplijn. Daarnaast bieden we InterLV-Agent voor gestandaardiseerd toolgebruik, trajectlogging en evaluatie. Experimenten met propriëtaire en open-source multimodale agenten tonen aan dat huidige systemen nog ver verwijderd zijn van het oplossen van verweven multimodaal zoeken, waarbij het beste model onder de 50% algehele nauwkeurigheid scoort, wat uitdagingen benadrukt op het gebied van visueel bewijszocken, zoekcontrole en multimodale bewijsintegratie. We geven de benchmarkgegevens en evaluatiecode vrij op https://github.com/hbhalpha/InterLV-Search-Bench.

English

Existing benchmarks for multimodal agentic search evaluate multimodal search and visual browsing, but visual evidence is either confined to the input or treated as an answer endpoint rather than part of an interleaved search trajectory. We introduce InterLV-Search, a benchmark for Interleaved Language-Vision Agentic Search, in which textual and visual evidence is repeatedly used to condition later search. It contains 2,061 examples across three levels: active visual evidence seeking, controlled offline interleaved multimodal search, and open-web interleaved multimodal search. Beyond existing benchmarks, it also includes multimodal multi-branch samples that involve comparison between multiple entities during the evidence search. We construct Level 1 and Level 2 with automated pipelines and Level 3 with a machine-led, human-supervised open-web pipeline. We further provide InterLV-Agent for standardized tool use, trajectory logging, and evaluation. Experiments on proprietary and open-source multimodal agents show that current systems remain far from solving interleaved multimodal search, with the best model below 50% overall accuracy, highlighting challenges in visual evidence seeking, search control, and multimodal evidence integration. We release the benchmark data and evaluation code at https://github.com/hbhalpha/InterLV-Search-Bench

InterLV-Search: benchmarken van interleaved multimodaal agentisch zoeken

InterLV-Search: Benchmarking Interleaved Multimodal Agentic Search

Samenvatting

Support