InterLV-Suche: Benchmarking für überlappende multimodale agentenbasierte Suche

Zusammenfassung

Bestehende Benchmarks für multimodale agentenbasierte Suche evaluieren multimodale Suche und visuelles Browsen, doch visuelle Evidenz ist entweder auf die Eingabe beschränkt oder wird als Endpunkt einer Antwort behandelt, anstatt Teil einer verschachtelten Suchtrajektorie zu sein. Wir stellen InterLV-Search vor, einen Benchmark für verschachtelte sprachlich-visuelle agentenbasierte Suche (Interleaved Language-Vision Agentic Search), bei dem textuelle und visuelle Evidenz wiederholt genutzt wird, um spätere Suchen zu konditionieren. Er umfasst 2.061 Beispiele über drei Ebenen: aktive Suche nach visueller Evidenz, kontrollierte verschachtelte multimodale Suche offline und verschachtelte multimodale Suche im offenen Web. Über bestehende Benchmarks hinaus enthält er auch multimodale Mehrfachverzweigungsbeispiele, die den Vergleich mehrerer Entitäten während der Evidenzsuche beinhalten. Wir konstruieren Ebene 1 und Ebene 2 mit automatisierten Pipelines und Ebene 3 mit einer maschinengesteuerten, menschlich überwachten Pipeline für das offene Web. Zusätzlich stellen wir InterLV-Agent für standardisierte Werkzeugnutzung, Trajektorienprotokollierung und Evaluation bereit. Experimente mit proprietären und Open-Source-Multimodalagenten zeigen, dass aktuelle Systeme weit davon entfernt sind, verschachtelte multimodale Suche zu lösen, wobei das beste Modell unter 50 % Gesamtgenauigkeit bleibt. Dies unterstreicht die Herausforderungen bei der Suche nach visueller Evidenz, der Suchsteuerung und der Integration multimodaler Evidenz. Wir veröffentlichen die Benchmark-Daten und Evaluationscode unter https://github.com/hbhalpha/InterLV-Search-Bench.

English

Existing benchmarks for multimodal agentic search evaluate multimodal search and visual browsing, but visual evidence is either confined to the input or treated as an answer endpoint rather than part of an interleaved search trajectory. We introduce InterLV-Search, a benchmark for Interleaved Language-Vision Agentic Search, in which textual and visual evidence is repeatedly used to condition later search. It contains 2,061 examples across three levels: active visual evidence seeking, controlled offline interleaved multimodal search, and open-web interleaved multimodal search. Beyond existing benchmarks, it also includes multimodal multi-branch samples that involve comparison between multiple entities during the evidence search. We construct Level 1 and Level 2 with automated pipelines and Level 3 with a machine-led, human-supervised open-web pipeline. We further provide InterLV-Agent for standardized tool use, trajectory logging, and evaluation. Experiments on proprietary and open-source multimodal agents show that current systems remain far from solving interleaved multimodal search, with the best model below 50% overall accuracy, highlighting challenges in visual evidence seeking, search control, and multimodal evidence integration. We release the benchmark data and evaluation code at https://github.com/hbhalpha/InterLV-Search-Bench

InterLV-Suche: Benchmarking für überlappende multimodale agentenbasierte Suche

InterLV-Search: Benchmarking Interleaved Multimodal Agentic Search

Zusammenfassung

Support