MERRIN: Un Punto de Referencia para la Recuperación y el Razonamiento de Evidencia Multimodal en Entornos Web Ruidosos
MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments
April 15, 2026
Autores: Han Wang, David Wan, Hyunji Lee, Thinh Pham, Mikaela Cankosyan, Weiyuan Chen, Elias Stengel-Eskin, Tu Vu, Mohit Bansal
cs.AI
Resumen
Motivados por la naturaleza subespecificada y de múltiples saltos de las consultas de búsqueda, así como por la naturaleza multimodal, heterogénea y a menudo contradictoria de los resultados web del mundo real, presentamos MERRIN (Recuperación y Razonamiento de Evidencia Multimodal en Entornos Web Ruidosos), un punto de referencia anotado por humanos para evaluar agentes aumentados por búsqueda. MERRIN mide la capacidad de los agentes de IA para identificar modalidades relevantes, recuperar evidencia multimodal y realizar razonamientos de múltiples saltos sobre fuentes web ruidosas. Se diferencia de trabajos anteriores en tres aspectos importantes: (1) utiliza consultas en lenguaje natural sin indicaciones explícitas de modalidad, (2) incorpora modalidades poco exploradas como video y audio, y (3) requiere la recuperación de evidencia multimodal compleja, a menudo ruidosa o contradictoria, durante la búsqueda web. Evaluamos diversos agentes de búsqueda impulsados por diez modelos, incluyendo modelos cerrados potentes (por ejemplo, GPT-5.4-mini, Gemini 3/3.1 Flash/Pro) y modelos de peso abierto (Qwen3-4B/30B/235B), en tres configuraciones de búsqueda (sin búsqueda, búsqueda nativa y búsqueda agentiva). Nuestros resultados muestran que MERRIN es muy desafiante: la precisión promedio de todos los agentes es del 22.3%, y el agente con mejor rendimiento alcanza solo el 40.1%. Observamos además que, si bien agentes más fuertes como Gemini Deep Research logran un mayor rendimiento, las mejoras son modestas debido a una sobreexploración; realizan más pasos y utilizan más herramientas, pero a menudo se distraen con contenido web contradictorio o parcialmente relevante, lo que lleva a respuestas incorrectas. En comparación con los humanos, estos agentes consumen más recursos y, sin embargo, logran una precisión menor, en gran parte debido a una selección ineficiente de fuentes y a una dependencia excesiva de las modalidades textuales. Estos hallazgos resaltan la necesidad de agentes de búsqueda capaces de realizar búsquedas y razonamientos robustos en diversas modalidades dentro de entornos web ruidosos, lo que convierte a MERRIN en un banco de pruebas valioso para evaluar dichas capacidades.
English
Motivated by the underspecified, multi-hop nature of search queries and the multimodal, heterogeneous, and often conflicting nature of real-world web results, we introduce MERRIN (Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments), a human-annotated benchmark for evaluating search-augmented agents. MERRIN measures AI agents' ability to identify relevant modalities, retrieve multimodal evidence, and perform multi-hop reasoning over noisy web sources. It differs from prior work in three important aspects: (1) using natural language queries without explicit modality cues, (2) incorporating underexplored modalities such as video and audio, and (3) requiring the retrieval of complex, often noisy or conflicting multimodal evidence during web search. We evaluate diverse search agents powered by ten models, including strong closed-source models (e.g., GPT-5.4-mini, Gemini 3/3.1 Flash/Pro) and open-weight models (Qwen3-4B/30B/235B), across three search settings (no search, native search, and agentic search). Our results show that MERRIN is highly challenging: the average accuracy across all agents is 22.3%, with the best-performing agent reaching only 40.1%. We further observe that while stronger agents like Gemini Deep Research achieve higher performance, gains are modest due to over-exploration; they take more steps and use more tools, but are often distracted by conflicting or partially relevant web content, leading to incorrect answers. Compared to humans, these agents consume more resources yet achieve lower accuracy, largely due to inefficient source selection and an overreliance on text modalities. These findings highlight the need for search agents capable of robust search and reasoning across diverse modalities in noisy web environments, making MERRIN a valuable testbed for evaluating such capabilities.