Desafio Wiki ao Vivo: Desafiando Agentes de Pesquisa Profunda com Artigos da Wikipédia de Nível Especialista

Resumo

Os Agentes de Pesquisa Profunda (DRAs) demonstraram capacidades notáveis na recuperação autónoma de informação e geração de relatórios, mostrando grande potencial para auxiliar humanos em tarefas de pesquisa complexas. As estruturas de avaliação atuais baseiam-se principalmente em referências geradas por LLM ou em dimensões de avaliação derivadas de LLM. Embora estas abordagens ofereçam escalabilidade, frequentemente carecem da confiabilidade de conteúdo verificado por especialistas e lutam para fornecer avaliações objetivas e granulares de dimensões críticas. Para colmatar esta lacuna, introduzimos o Wiki Live Challenge (WLC), um benchmark dinâmico que aproveita os Artigos Bons (Good Articles - GAs) mais recentes da Wikipedia como referências de nível especializado. Os rigorosos padrões da Wikipedia para neutralidade, abrangência e verificabilidade representam um grande desafio para os DRAs, sendo os GAs o expoente máximo desses padrões. Criámos um conjunto de dados com 100 Artigos Bons recentes e propomos o Wiki Eval, uma estrutura de avaliação abrangente que inclui um método de avaliação granular com 39 critérios para qualidade de escrita e métricas rigorosas para verificabilidade factual. Experiências extensivas com vários sistemas DRA demonstram uma diferença significativa entre os DRAs atuais e os artigos da Wikipedia de nível especializado humano, validando a eficácia do WLC no avanço da pesquisa em agentes. Disponibilizamos o nosso benchmark em https://github.com/WangShao2000/Wiki_Live_Challenge.

English

Deep Research Agents (DRAs) have demonstrated remarkable capabilities in autonomous information retrieval and report generation, showing great potential to assist humans in complex research tasks. Current evaluation frameworks primarily rely on LLM-generated references or LLM-derived evaluation dimensions. While these approaches offer scalability, they often lack the reliability of expert-verified content and struggle to provide objective, fine-grained assessments of critical dimensions. To bridge this gap, we introduce Wiki Live Challenge (WLC), a live benchmark that leverages the newest Wikipedia Good Articles (GAs) as expert-level references. Wikipedia's strict standards for neutrality, comprehensiveness, and verifiability serve as a great challenge for DRAs, with GAs representing the pinnacle of which. We curate a dataset of 100 recent Good Articles and propose Wiki Eval, a comprehensive evaluation framework comprising a fine-grained evaluation method with 39 criteria for writing quality and rigorous metrics for factual verifiability. Extensive experiments on various DRA systems demonstrate a significant gap between current DRAs and human expert-level Wikipedia articles, validating the effectiveness of WLC in advancing agent research. We release our benchmark at https://github.com/WangShao2000/Wiki_Live_Challenge

Desafio Wiki ao Vivo: Desafiando Agentes de Pesquisa Profunda com Artigos da Wikipédia de Nível Especialista

Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles

Resumo

Support