MERRIN: Бенчмарк для извлечения и анализа мультимодальных свидетельств в зашумленных веб-средах
MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments
April 15, 2026
Авторы: Han Wang, David Wan, Hyunji Lee, Thinh Pham, Mikaela Cankosyan, Weiyuan Chen, Elias Stengel-Eskin, Tu Vu, Mohit Bansal
cs.AI
Аннотация
Мотивированные неполнотой и многошаговым характером поисковых запросов, а также мультимодальным, гетерогенным и зачастую противоречивым характером веб-результатов из реального мира, мы представляем MERRIN (Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments) — размеченный человеком бенчмарк для оценки поисково-усиленных агентов. MERRIN измеряет способность ИИ-агентов идентифицировать релевантные модальности, извлекать мультимодальные свидетельства и выполнять многошаговые рассуждения на основе зашумленных веб-источников. Он отличается от предыдущих работ тремя важными аспектами: (1) использованием естественно-языковых запросов без явных указаний на модальность, (2) включением недостаточно изученных модальностей, таких как видео и аудио, и (3) требованием извлечения сложных, часто зашумленных или противоречивых мультимодальных свидетельств в процессе веб-поиска. Мы оцениваем разнообразные поисковые агенты, работающие на десяти моделях, включая мощные проприетарные модели (например, GPT-5.4-mini, Gemini 3/3.1 Flash/Pro) и модели с открытыми весами (Qwen3-4B/30B/235B), в трех режимах поиска (без поиска, нативный поиск и агентный поиск). Наши результаты показывают, что MERRIN является чрезвычайно сложным: средняя точность по всем агентам составляет 22,3%, при этом лучший агент достигает лишь 40,1%. Мы также наблюдаем, что хотя более сильные агенты, такие как Gemini Deep Research, демонстрируют более высокую производительность, прирост скромен из-за чрезмерного исследования; они выполняют больше шагов и используют больше инструментов, но часто отвлекаются на противоречивый или частично релевантный веб-контент, что приводит к неверным ответам. По сравнению с людьми эти агенты потребляют больше ресурсов, но достигают меньшей точности, в основном из-за неэффективного выбора источников и чрезмерной зависимости от текстовых модальностей. Эти результаты подчеркивают необходимость в поисковых агентах, способных к надежному поиску и рассуждениям в различных модальностях в зашумленных веб-средах, что делает MERRIN ценным полигоном для оценки таких способностей.
English
Motivated by the underspecified, multi-hop nature of search queries and the multimodal, heterogeneous, and often conflicting nature of real-world web results, we introduce MERRIN (Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments), a human-annotated benchmark for evaluating search-augmented agents. MERRIN measures AI agents' ability to identify relevant modalities, retrieve multimodal evidence, and perform multi-hop reasoning over noisy web sources. It differs from prior work in three important aspects: (1) using natural language queries without explicit modality cues, (2) incorporating underexplored modalities such as video and audio, and (3) requiring the retrieval of complex, often noisy or conflicting multimodal evidence during web search. We evaluate diverse search agents powered by ten models, including strong closed-source models (e.g., GPT-5.4-mini, Gemini 3/3.1 Flash/Pro) and open-weight models (Qwen3-4B/30B/235B), across three search settings (no search, native search, and agentic search). Our results show that MERRIN is highly challenging: the average accuracy across all agents is 22.3%, with the best-performing agent reaching only 40.1%. We further observe that while stronger agents like Gemini Deep Research achieve higher performance, gains are modest due to over-exploration; they take more steps and use more tools, but are often distracted by conflicting or partially relevant web content, leading to incorrect answers. Compared to humans, these agents consume more resources yet achieve lower accuracy, largely due to inefficient source selection and an overreliance on text modalities. These findings highlight the need for search agents capable of robust search and reasoning across diverse modalities in noisy web environments, making MERRIN a valuable testbed for evaluating such capabilities.