MERRIN: Een Benchmark voor Multimodale Bewijsretrieval en Redeneren in Lawaaierige Webomgevingen

Samenvatting

Gemotiveerd door de ondergespecificeerde, multi-hop aard van zoekopdrachten en de multimodale, heterogene en vaak tegenstrijdige aard van real-world webresultaten, introduceren we MERRIN (Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments), een door mensen geannoteerde benchmark voor het evalueren van zoekversterkte agents. MERRIN meet het vermogen van AI-agents om relevante modaliteiten te identificeren, multimodale bewijsstukken op te halen en multi-hop redenering uit te voeren over ruwe webbronnen. Het wijkt op drie belangrijke punten af van eerder werk: (1) het gebruik van natuurlijke taalquery's zonder expliciete modaliteitsaanwijzingen, (2) de integratie van onderbelichte modaliteiten zoals video en audio, en (3) de vereiste om complexe, vaak ruwe of tegenstrijdige multimodale bewijsstukken op te halen tijdens het zoeken op het web. We evalueren diverse zoekagentschappen aangedreven door tien modellen, waaronder sterke closed-source modellen (bijv. GPT-5.4-mini, Gemini 3/3.1 Flash/Pro) en open-weight modellen (Qwen3-4B/30B/235B), in drie zoekomgevingen (geen zoeken, native zoeken en agentic zoeken). Onze resultaten tonen aan dat MERRIN zeer uitdagend is: de gemiddelde nauwkeurigheid over alle agents heen is 22,3%, waarbij de best presterende agent slechts 40,1% bereikt. We observeren verder dat hoewel sterkere agents zoals Gemini Deep Research betere prestaties leveren, de winst bescheiden is door over-exploratie; ze nemen meer stappen en gebruiken meer tools, maar worden vaak afgeleid door tegenstrijdige of gedeeltelijk relevante webinhoud, wat leidt tot incorrecte antwoorden. Vergeleken met mensen verbruiken deze agents meer middelen maar behalen ze een lagere nauwkeurigheid, grotendeels door inefficiënte bronselectie en een overmatige afhankelijkheid van tekstmodaliteiten. Deze bevindingen benadrukken de noodzaak voor zoekagentschappen die in staat zijn tot robuust zoeken en redeneren over diverse modaliteiten in ruwe webomgevingen, waardoor MERRIN een waardevolle testomgeving is voor het evalueren van dergelijke capaciteiten.

English

Motivated by the underspecified, multi-hop nature of search queries and the multimodal, heterogeneous, and often conflicting nature of real-world web results, we introduce MERRIN (Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments), a human-annotated benchmark for evaluating search-augmented agents. MERRIN measures AI agents' ability to identify relevant modalities, retrieve multimodal evidence, and perform multi-hop reasoning over noisy web sources. It differs from prior work in three important aspects: (1) using natural language queries without explicit modality cues, (2) incorporating underexplored modalities such as video and audio, and (3) requiring the retrieval of complex, often noisy or conflicting multimodal evidence during web search. We evaluate diverse search agents powered by ten models, including strong closed-source models (e.g., GPT-5.4-mini, Gemini 3/3.1 Flash/Pro) and open-weight models (Qwen3-4B/30B/235B), across three search settings (no search, native search, and agentic search). Our results show that MERRIN is highly challenging: the average accuracy across all agents is 22.3%, with the best-performing agent reaching only 40.1%. We further observe that while stronger agents like Gemini Deep Research achieve higher performance, gains are modest due to over-exploration; they take more steps and use more tools, but are often distracted by conflicting or partially relevant web content, leading to incorrect answers. Compared to humans, these agents consume more resources yet achieve lower accuracy, largely due to inefficient source selection and an overreliance on text modalities. These findings highlight the need for search agents capable of robust search and reasoning across diverse modalities in noisy web environments, making MERRIN a valuable testbed for evaluating such capabilities.

MERRIN: Een Benchmark voor Multimodale Bewijsretrieval en Redeneren in Lawaaierige Webomgevingen

MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments

Samenvatting

Support