MERRIN: Um Benchmark para Recuperação e Raciocínio de Evidências Multimodais em Ambientes Web Ruidosos
MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments
April 15, 2026
Autores: Han Wang, David Wan, Hyunji Lee, Thinh Pham, Mikaela Cankosyan, Weiyuan Chen, Elias Stengel-Eskin, Tu Vu, Mohit Bansal
cs.AI
Resumo
Motivados pela natureza subespecificada e de múltiplos passos das consultas de pesquisa e pela natureza multimodal, heterogênea e frequentemente conflituosa dos resultados reais da web, apresentamos MERRIN (Recuperação e Raciocínio de Evidências Multimodais em Ambientes Web Ruidosos), um benchmark anotado por humanos para avaliar agentes de pesquisa aumentada. O MERRIN mede a capacidade dos agentes de IA de identificar modalidades relevantes, recuperar evidências multimodais e realizar raciocínio de múltiplos passos sobre fontes web ruidosas. Ele difere de trabalhos anteriores em três aspectos importantes: (1) uso de consultas em linguagem natural sem pistas explícitas de modalidade, (2) incorporação de modalidades pouco exploradas, como vídeo e áudio, e (3) exigência de recuperação de evidências multimodais complexas, frequentemente ruidosas ou conflitantes, durante a pesquisa web. Avaliamos diversos agentes de pesquisa baseados em dez modelos, incluindo modelos proprietários robustos (por exemplo, GPT-5.4-mini, Gemini 3/3.1 Flash/Pro) e modelos de pesos abertos (Qwen3-4B/30B/235B), em três configurações de pesquisa (sem pesquisa, pesquisa nativa e pesquisa agentiva). Nossos resultados mostram que o MERRIN é altamente desafiador: a precisão média entre todos os agentes é de 22,3%, com o agente de melhor desempenho atingindo apenas 40,1%. Observamos ainda que, embora agentes mais fortes, como o Gemini Deep Research, atinjam um desempenho superior, os ganhos são modestos devido à superexploração; eles executam mais etapas e usam mais ferramentas, mas frequentemente se distraem com conteúdo web conflitante ou parcialmente relevante, levando a respostas incorretas. Em comparação com humanos, esses agentes consomem mais recursos, mas alcançam precisão inferior, principalmente devido à seleção ineficiente de fontes e a uma excessiva dependência de modalidades textuais. Essas descobertas destacam a necessidade de agentes de pesquisa capazes de realizar buscas e raciocínios robustos em diversas modalidades em ambientes web ruidosos, tornando o MERRIN um banco de testes valioso para avaliar tais capacidades.
English
Motivated by the underspecified, multi-hop nature of search queries and the multimodal, heterogeneous, and often conflicting nature of real-world web results, we introduce MERRIN (Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments), a human-annotated benchmark for evaluating search-augmented agents. MERRIN measures AI agents' ability to identify relevant modalities, retrieve multimodal evidence, and perform multi-hop reasoning over noisy web sources. It differs from prior work in three important aspects: (1) using natural language queries without explicit modality cues, (2) incorporating underexplored modalities such as video and audio, and (3) requiring the retrieval of complex, often noisy or conflicting multimodal evidence during web search. We evaluate diverse search agents powered by ten models, including strong closed-source models (e.g., GPT-5.4-mini, Gemini 3/3.1 Flash/Pro) and open-weight models (Qwen3-4B/30B/235B), across three search settings (no search, native search, and agentic search). Our results show that MERRIN is highly challenging: the average accuracy across all agents is 22.3%, with the best-performing agent reaching only 40.1%. We further observe that while stronger agents like Gemini Deep Research achieve higher performance, gains are modest due to over-exploration; they take more steps and use more tools, but are often distracted by conflicting or partially relevant web content, leading to incorrect answers. Compared to humans, these agents consume more resources yet achieve lower accuracy, largely due to inefficient source selection and an overreliance on text modalities. These findings highlight the need for search agents capable of robust search and reasoning across diverse modalities in noisy web environments, making MERRIN a valuable testbed for evaluating such capabilities.