ByHan Wang, David Wan, Hyunji Lee, Thinh Pham, Mikaela Cankosyan, Weiyuan Chen, Elias Stengel-Eskin, Tu Vu, Mohit Bansal
5
1
受搜索查询本身存在的模糊性、多跳性特征,以及现实网络环境中多模态、异质性且常含矛盾信息的启发,我们推出了MERRIN(嘈杂网络环境中的多模态证据检索与推理)基准数据集。该人工标注数据集旨在评估增强搜索智能体的性能,重点考察AI智能体在嘈杂网络环境中识别相关模态、检索多模态证据并进行多跳推理的能力。MERRIN在以下三方面区别于现有研究:(1)采用无明确模态提示的自然语言查询;(2)纳入视频、音频等尚未充分探索的模态;(3)要求在网络搜索过程中检索复杂且常含噪声或矛盾的多模态证据。我们评估了基于十种模型的多样化搜索智能体,包括强闭源模型(如GPT-5.4-mini、Gemini 3/3.1 Flash/Pro)和开源权重模型(Qwen3-4B/30B/235B),涵盖三种搜索场景(无搜索、原生搜索和智能体搜索)。实验结果表明MERRIN具有高度挑战性:所有智能体平均准确率仅为22.3%,最优模型仅达到40.1%。进一步观察发现,尽管Gemini Deep Research等强智能体表现更优,但由于过度探索导致提升有限——它们虽使用更多工具和执行更多步骤,却常被矛盾或部分相关的网络内容干扰而得出错误答案。与人类相比,这些智能体消耗更多资源却准确率更低,主要源于低效的信源选择和过度依赖文本模态。这些发现凸显了开发能够在嘈杂网络环境中进行跨模态稳健搜索与推理的智能体的必要性,使MERRIN成为评估此类能力的宝贵测试平台。
BySamuel Cahyawijaya, Peerat Limkonchotiwat, Tack Hwa Wong, Hitesh Laxmichand Patel, Amit Agarwal, Manuel Antonio Rufino, Carlos Rafael Catalan, Muhammad Reza Qorib, Vicky Feliren, Holy Lovenia, Aye Hninn Khine, Frederikus Hudi, David Anugraha, Alham Fikri Aji, Romrawin Chumpu, Viet-Thanh Pham, Minghan Wang, Mohamed Fazli Imam, Ruochen Zhang, Joseph Marvin Imperial, Do Xuan Long, Musa Izzanardi Wijanarko, Joel Ruben Antony Moniz, Patrick Amadeus Irawan, Hanif Muhammad Zhafran, Isaiah Flores, Ira Salsabila, Jun Kevin, Jostin Jerico Rosal, Patricia Nicole Monderin, Kun Kerdthaisong, Ahmad Mustafid, My Chiffon Nguyen, Natchapon Jongwiriyanurak, Siva Worajitwannakul, Haochen Li, Adrian Xuan Wei Lim, Bin Wang, Muhammad Ravi Shulthan Habibi, Lynnette Hui Xian Ng, Mithil Bangera, Yeshil Bangera, Priyaranjan Pattnayak, Dun Li Chan, Sherissa Caren Djuniwar, Hee Ming Shan