MERRIN: Un Benchmark per il Recupero di Prove Multimodali e il Ragionamento in Ambienti Web Rumorosi

Abstract

Spinti dalla natura sottospecificata e multi-hop delle query di ricerca e dalla natura multimodale, eterogenea e spesso conflittuale dei risultati web del mondo reale, introduciamo MERRIN (Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments), un benchmark annotato da esseri umani per valutare gli agenti potenziati dalla ricerca. MERRIN misura la capacità degli agenti di IA di identificare le modalità rilevanti, recuperare prove multimodali ed eseguire ragionamenti multi-hop su fonti web rumorose. Si differenzia dai lavori precedenti per tre aspetti importanti: (1) l'utilizzo di query in linguaggio naturale senza espliciti indizi di modalità, (2) l'inclusione di modalità poco esplorate come video e audio, e (3) la necessità di recuperare prove multimodali complesse, spesso rumorose o conflittuali, durante la ricerca web. Abbiamo valutato vari agenti di ricerca basati su dieci modelli, inclusi potenti modelli closed-source (ad es., GPT-5.4-mini, Gemini 3/3.1 Flash/Pro) e modelli open-weight (Qwen3-4B/30B/235B), in tre scenari di ricerca (nessuna ricerca, ricerca nativa e ricerca agentiva). I nostri risultati mostrano che MERRIN è estremamente impegnativo: l'accuratezza media di tutti gli agenti è del 22,3%, con l'agente migliore che raggiunge solo il 40,1%. Inoltre, osserviamo che sebbene agenti più potenti come Gemini Deep Research ottengano prestazioni superiori, i miglioramenti sono modesti a causa di un eccesso di esplorazione; essi compiono più passaggi e utilizzano più strumenti, ma vengono spesso distratti da contenuti web conflittuali o parzialmente rilevanti, portando a risposte errate. Rispetto agli esseri umani, questi agenti consumano più risorse ma ottengono un'accuratezza inferiore, principalmente a causa di una selezione inefficiente delle fonti e di un'eccessiva dipendenza dalle modalità testuali. Questi risultati evidenziano la necessità di agenti di ricerca capaci di effettuare ricerche e ragionamenti robusti attraverso diverse modalità in ambienti web rumorosi, rendendo MERRIN un banco di prova prezioso per valutare tali capacità.

English

Motivated by the underspecified, multi-hop nature of search queries and the multimodal, heterogeneous, and often conflicting nature of real-world web results, we introduce MERRIN (Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments), a human-annotated benchmark for evaluating search-augmented agents. MERRIN measures AI agents' ability to identify relevant modalities, retrieve multimodal evidence, and perform multi-hop reasoning over noisy web sources. It differs from prior work in three important aspects: (1) using natural language queries without explicit modality cues, (2) incorporating underexplored modalities such as video and audio, and (3) requiring the retrieval of complex, often noisy or conflicting multimodal evidence during web search. We evaluate diverse search agents powered by ten models, including strong closed-source models (e.g., GPT-5.4-mini, Gemini 3/3.1 Flash/Pro) and open-weight models (Qwen3-4B/30B/235B), across three search settings (no search, native search, and agentic search). Our results show that MERRIN is highly challenging: the average accuracy across all agents is 22.3%, with the best-performing agent reaching only 40.1%. We further observe that while stronger agents like Gemini Deep Research achieve higher performance, gains are modest due to over-exploration; they take more steps and use more tools, but are often distracted by conflicting or partially relevant web content, leading to incorrect answers. Compared to humans, these agents consume more resources yet achieve lower accuracy, largely due to inefficient source selection and an overreliance on text modalities. These findings highlight the need for search agents capable of robust search and reasoning across diverse modalities in noisy web environments, making MERRIN a valuable testbed for evaluating such capabilities.

MERRIN: Un Benchmark per il Recupero di Prove Multimodali e il Ragionamento in Ambienti Web Rumorosi

MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments

Abstract

Support