위키 라이브 챌린지: 전문가 수준 위키백과 문서로 심층 연구 에이전트에 도전하기
Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles
February 2, 2026
저자: Shaohan Wang, Benfeng Xu, Licheng Zhang, Mingxuan Du, Chiwei Zhu, Xiaorui Wang, Zhendong Mao, Yongdong Zhang
cs.AI
초록
딥 리서치 에이전트(DRA)는 자율적인 정보 검색 및 보고서 생성에서 뛰어난 능력을 보여주며, 복잡한 연구 작업에서 인간을 지원할 수 있는 큰 잠재력을 나타내고 있습니다. 현재의 평가 체계는 주로 LLM이 생성한 참조 자료나 LLM에서 도출된 평가 차원에 의존하고 있습니다. 이러한 접근 방식은 확장성을 제공하지만, 전문가 검증 콘텐츠의 신뢰도가 부족한 경우가 많으며 중요한 차원에 대한 객관적이고 세분화된 평가를 제공하는 데 어려움을 겪습니다. 이러한 격차를 해소하기 위해 우리는 최신 위키백과 양호 문서(GA)를 전문가 수준의 참조 자료로 활용하는 라이브 벤치마크인 Wiki Live Challenge(WLC)를 소개합니다. 위키백과의 중립성, 포괄성, 검증 가능성에 대한 엄격한 기준은 DRA에게 큰 도전 과제가 되며, GA는 그 정점을 나타냅니다. 우리는 최근의 양호 문서 100개로 구성된 데이터셋을 구축하고, 글쓰기 품질에 대한 39개 기준의 세분화된 평가 방법과 사실적 검증 가능성에 대한 엄격한 지표를 포함한 포괄적인 평가 프레임워크인 Wiki Eval을 제안합니다. 다양한 DRA 시스템에 대한 광범위한 실험을 통해 현재 DRA와 인간 전문가 수준의 위키백과 문서 사이에 상당한 격차가 있음을 입증하며, WLC가 에이전트 연구 발전에 효과적임을 검증합니다. 우리는 벤치마크를 https://github.com/WangShao2000/Wiki_Live_Challenge 에 공개합니다.
English
Deep Research Agents (DRAs) have demonstrated remarkable capabilities in autonomous information retrieval and report generation, showing great potential to assist humans in complex research tasks. Current evaluation frameworks primarily rely on LLM-generated references or LLM-derived evaluation dimensions. While these approaches offer scalability, they often lack the reliability of expert-verified content and struggle to provide objective, fine-grained assessments of critical dimensions. To bridge this gap, we introduce Wiki Live Challenge (WLC), a live benchmark that leverages the newest Wikipedia Good Articles (GAs) as expert-level references. Wikipedia's strict standards for neutrality, comprehensiveness, and verifiability serve as a great challenge for DRAs, with GAs representing the pinnacle of which. We curate a dataset of 100 recent Good Articles and propose Wiki Eval, a comprehensive evaluation framework comprising a fine-grained evaluation method with 39 criteria for writing quality and rigorous metrics for factual verifiability. Extensive experiments on various DRA systems demonstrate a significant gap between current DRAs and human expert-level Wikipedia articles, validating the effectiveness of WLC in advancing agent research. We release our benchmark at https://github.com/WangShao2000/Wiki_Live_Challenge