MERRIN : Un Benchmark pour la Récupération de Preuves Multimodales et le Raisonnement dans des Environnements Web Bruités
MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments
April 15, 2026
Auteurs: Han Wang, David Wan, Hyunji Lee, Thinh Pham, Mikaela Cankosyan, Weiyuan Chen, Elias Stengel-Eskin, Tu Vu, Mohit Bansal
cs.AI
Résumé
Motivés par le caractère sous-spécifié et multi-étapes des requêtes de recherche, ainsi que par la nature multimodale, hétérogène et souvent conflictuelle des résultats web du monde réel, nous présentons MERRIN (Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments), un benchmark annoté manuellement pour évaluer les agents augmentés par la recherche. MERRIN mesure la capacité des agents d'IA à identifier les modalités pertinentes, à récupérer des preuves multimodales et à effectuer un raisonnement multi-étapes sur des sources web bruitées. Il se distingue des travaux antérieurs par trois aspects importants : (1) l'utilisation de requêtes en langage naturel sans indices explicites de modalité, (2) l'intégration de modalités peu explorées comme la vidéo et l'audio, et (3) l'exigence de récupération de preuves multimodales complexes, souvent bruitées ou conflictuelles, lors de la recherche web. Nous évaluons divers agents de recherche alimentés par dix modèles, incluant des modèles propriétaires performants (par exemple, GPT-5.4-mini, Gemini 3/3.1 Flash/Pro) et des modèles à poids ouverts (Qwen3-4B/30B/235B), dans trois contextes de recherche (sans recherche, recherche native et recherche agentique). Nos résultats montrent que MERRIN est très difficile : la précision moyenne de tous les agents est de 22,3 %, le meilleur agent n'atteignant que 40,1 %. Nous observons en outre que si des agents plus performants comme Gemini Deep Research obtiennent de meilleurs résultats, les gains sont modestes en raison d'une surexploration ; ils effectuent plus d'étapes et utilisent plus d'outils, mais sont souvent distraits par un contenu web conflictuel ou partiellement pertinent, conduisant à des réponses incorrectes. Comparés aux humains, ces agents consomment plus de ressources tout en obtenant une précision inférieure, principalement en raison d'une sélection inefficace des sources et d'une dépendance excessive aux modalités textuelles. Ces résultats soulignent la nécessité de développer des agents de recherche capables d'une recherche et d'un raisonnement robustes à travers des modalités diverses dans des environnements web bruités, faisant de MERRIN un banc d'essai précieux pour évaluer ces capacités.
English
Motivated by the underspecified, multi-hop nature of search queries and the multimodal, heterogeneous, and often conflicting nature of real-world web results, we introduce MERRIN (Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments), a human-annotated benchmark for evaluating search-augmented agents. MERRIN measures AI agents' ability to identify relevant modalities, retrieve multimodal evidence, and perform multi-hop reasoning over noisy web sources. It differs from prior work in three important aspects: (1) using natural language queries without explicit modality cues, (2) incorporating underexplored modalities such as video and audio, and (3) requiring the retrieval of complex, often noisy or conflicting multimodal evidence during web search. We evaluate diverse search agents powered by ten models, including strong closed-source models (e.g., GPT-5.4-mini, Gemini 3/3.1 Flash/Pro) and open-weight models (Qwen3-4B/30B/235B), across three search settings (no search, native search, and agentic search). Our results show that MERRIN is highly challenging: the average accuracy across all agents is 22.3%, with the best-performing agent reaching only 40.1%. We further observe that while stronger agents like Gemini Deep Research achieve higher performance, gains are modest due to over-exploration; they take more steps and use more tools, but are often distracted by conflicting or partially relevant web content, leading to incorrect answers. Compared to humans, these agents consume more resources yet achieve lower accuracy, largely due to inefficient source selection and an overreliance on text modalities. These findings highlight the need for search agents capable of robust search and reasoning across diverse modalities in noisy web environments, making MERRIN a valuable testbed for evaluating such capabilities.