MERRIN: Ein Benchmark für den Abruf und die Schlussfolgerung multimodaler Evidenz in verrauschten Web-Umgebungen
MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments
April 15, 2026
Autoren: Han Wang, David Wan, Hyunji Lee, Thinh Pham, Mikaela Cankosyan, Weiyuan Chen, Elias Stengel-Eskin, Tu Vu, Mohit Bansal
cs.AI
Zusammenfassung
Angeregt durch die underspezifizierte, multihop-Natur von Suchanfragen sowie die multimodale, heterogene und oft widersprüchliche Beschaffenheit realer Web-Ergebnisse stellen wir MERRIN (Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments) vor, einen human-annotierten Benchmark zur Bewertung suchaugmentierter Agenten. MERRIN misst die Fähigkeit von KI-Agenten, relevante Modalitäten zu identifizieren, multimodale Evidenz zu retrieven und multihop Reasoning über verrauschte Webquellen durchzuführen. Es unterscheidet sich von vorheriger Arbeit in drei wichtigen Aspekten: (1) der Verwendung natürlicher Sprachabfragen ohne explizite Modalitätshinweise, (2) der Einbeziehung untererforschter Modalitäten wie Video und Audio sowie (3) der Anforderung, komplexe, oft verrauschte oder widersprüchliche multimodale Evidenz während der Websuche zu retrieven. Wir evaluieren diverse Suchagenten, die von zehn Modellen angetrieben werden – darunter starke Closed-Source-Modelle (z.B. GPT-5.4-mini, Gemini 3/3.1 Flash/Pro) und Open-Weight-Modelle (Qwen3-4B/30B/235B) – in drei Suchszenarien (keine Suche, native Suche, agentenbasierte Suche). Unsere Ergebnisse zeigen, dass MERRIN äußerst anspruchsvoll ist: die durchschnittliche Genauigkeit über alle Agenten beträgt 22,3 %, wobei der leistungsstärkste Agent lediglich 40,1 % erreicht. Weiter beobachten wir, dass zwar stärkere Agenten wie Gemini Deep Research höhere Leistung erzielen, die Verbesserungen jedoch aufgrund von Over-Exploration begrenzt sind; sie führen mehr Schritte aus und nutzen mehr Tools, lassen sich jedoch oft von widersprüchlichen oder teilweise relevanten Webinhalten ablenken, was zu falschen Antworten führt. Im Vergleich zu Menschen verbrauchen diese Agenten mehr Ressourcen, erreichen jedoch geringere Genauigkeit, hauptsächlich aufgrund ineffizienter Quellenauswahl und übermäßiger Abhängigkeit von Textmodalitäten. Diese Erkenntnisse unterstreichen die Notwendigkeit von Suchagenten, die zu robustem Suchen und Schließen über diverse Modalitäten in verrauschten Webumgebungen fähig sind, wodurch MERRIN eine wertvolle Testplattform zur Bewertung solcher Fähigkeiten darstellt.
English
Motivated by the underspecified, multi-hop nature of search queries and the multimodal, heterogeneous, and often conflicting nature of real-world web results, we introduce MERRIN (Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments), a human-annotated benchmark for evaluating search-augmented agents. MERRIN measures AI agents' ability to identify relevant modalities, retrieve multimodal evidence, and perform multi-hop reasoning over noisy web sources. It differs from prior work in three important aspects: (1) using natural language queries without explicit modality cues, (2) incorporating underexplored modalities such as video and audio, and (3) requiring the retrieval of complex, often noisy or conflicting multimodal evidence during web search. We evaluate diverse search agents powered by ten models, including strong closed-source models (e.g., GPT-5.4-mini, Gemini 3/3.1 Flash/Pro) and open-weight models (Qwen3-4B/30B/235B), across three search settings (no search, native search, and agentic search). Our results show that MERRIN is highly challenging: the average accuracy across all agents is 22.3%, with the best-performing agent reaching only 40.1%. We further observe that while stronger agents like Gemini Deep Research achieve higher performance, gains are modest due to over-exploration; they take more steps and use more tools, but are often distracted by conflicting or partially relevant web content, leading to incorrect answers. Compared to humans, these agents consume more resources yet achieve lower accuracy, largely due to inefficient source selection and an overreliance on text modalities. These findings highlight the need for search agents capable of robust search and reasoning across diverse modalities in noisy web environments, making MERRIN a valuable testbed for evaluating such capabilities.