Wikiライブチャレンジ:専門家レベルのWikipedia記事で深層研究エージェントに挑戦
Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles
February 2, 2026
著者: Shaohan Wang, Benfeng Xu, Licheng Zhang, Mingxuan Du, Chiwei Zhu, Xiaorui Wang, Zhendong Mao, Yongdong Zhang
cs.AI
要旨
Deep Research Agent(DRA)は、自律的な情報検索とレポート生成において顕著な能力を示し、複雑な研究タスクにおける人間の支援として大きな可能性を秘めている。現在の評価フレームワークは、主にLLMが生成する参照文献またはLLMから導出された評価次元に依存している。これらのアプローチは拡張性に優れるが、専門家による検証済みコンテンツの信頼性に欠け、重要な次元に対する客観的できめ細かい評価を提供することが困難である。この課題を解決するため、我々はWiki Live Challenge(WLC)を提案する。これは最新のWikipedia「良質な記事」(GA)を専門家レベルの参照基準として活用するライブベンチマークである。Wikipediaの中立性、網羅性、検証可能性に対する厳格な基準はDRAにとって大きな挑戦となり、GAはその頂点を代表する。我々は最近の良質な記事100件を精選したデータセットを構築し、執筆品質を39の基準で評価する詳細な評価手法と、事実の検証可能性を厳密に測定する指標から構成される総合的な評価フレームワーク「Wiki Eval」を提案する。様々なDRAシステムを用いた大規模実験により、現在のDRAと人間の専門家レベルのWikipedia記事には大きな隔たりがあることが実証され、WLCがエージェント研究を推進する上で有効であることが確認された。本ベンチマークはhttps://github.com/WangShao2000/Wiki_Live_Challenge で公開している。
English
Deep Research Agents (DRAs) have demonstrated remarkable capabilities in autonomous information retrieval and report generation, showing great potential to assist humans in complex research tasks. Current evaluation frameworks primarily rely on LLM-generated references or LLM-derived evaluation dimensions. While these approaches offer scalability, they often lack the reliability of expert-verified content and struggle to provide objective, fine-grained assessments of critical dimensions. To bridge this gap, we introduce Wiki Live Challenge (WLC), a live benchmark that leverages the newest Wikipedia Good Articles (GAs) as expert-level references. Wikipedia's strict standards for neutrality, comprehensiveness, and verifiability serve as a great challenge for DRAs, with GAs representing the pinnacle of which. We curate a dataset of 100 recent Good Articles and propose Wiki Eval, a comprehensive evaluation framework comprising a fine-grained evaluation method with 39 criteria for writing quality and rigorous metrics for factual verifiability. Extensive experiments on various DRA systems demonstrate a significant gap between current DRAs and human expert-level Wikipedia articles, validating the effectiveness of WLC in advancing agent research. We release our benchmark at https://github.com/WangShao2000/Wiki_Live_Challenge