Wiki Live Challenge: Sfidare Agenti di Ricerca Profonda con Articoli Wikipedia di Livello Esperto

Abstract

Gli Agenti di Ricerca Approfondita (DRA) hanno dimostrato capacità notevoli nel recupero autonomo di informazioni e nella generazione di report, mostrando un grande potenziale nell'assistere gli esseri umani in compiti di ricerca complessi. Gli attuali framework di valutazione si basano principalmente su riferimenti generati da LLM o su dimensioni di valutazione derivate da LLM. Sebbene questi approcci offrano scalabilità, spesso mancano dell'affidabilità di contenuti verificati da esperti e faticano a fornire valutazioni oggettive e granulari di dimensioni critiche. Per colmare questa lacuna, introduciamo Wiki Live Challenge (WLC), un benchmark in tempo reale che utilizza i più recenti Articoli di Qualità (Good Articles, GA) di Wikipedia come riferimenti di livello esperto. Gli standard rigorosi di Wikipedia per neutralità, completezza e verificabilità rappresentano un'ottima sfida per i DRA, con i GA che ne incarnano l'eccellenza. Abbiamo curato un dataset di 100 Articoli di Qualità recenti e proposto Wiki Eval, un framework di valutazione completo che comprende un metodo di valutazione granulare con 39 criteri per la qualità della scrittura e metriche rigorose per la verificabilità fattuale. Esperimenti estesi su vari sistemi DRA dimostrano un divario significativo tra gli attuali DRA e gli articoli Wikipedia di livello esperto umano, convalidando l'efficacia di WLC nel far progredire la ricerca sugli agenti. Rilasciamo il nostro benchmark all'indirizzo https://github.com/WangShao2000/Wiki_Live_Challenge.

English

Deep Research Agents (DRAs) have demonstrated remarkable capabilities in autonomous information retrieval and report generation, showing great potential to assist humans in complex research tasks. Current evaluation frameworks primarily rely on LLM-generated references or LLM-derived evaluation dimensions. While these approaches offer scalability, they often lack the reliability of expert-verified content and struggle to provide objective, fine-grained assessments of critical dimensions. To bridge this gap, we introduce Wiki Live Challenge (WLC), a live benchmark that leverages the newest Wikipedia Good Articles (GAs) as expert-level references. Wikipedia's strict standards for neutrality, comprehensiveness, and verifiability serve as a great challenge for DRAs, with GAs representing the pinnacle of which. We curate a dataset of 100 recent Good Articles and propose Wiki Eval, a comprehensive evaluation framework comprising a fine-grained evaluation method with 39 criteria for writing quality and rigorous metrics for factual verifiability. Extensive experiments on various DRA systems demonstrate a significant gap between current DRAs and human expert-level Wikipedia articles, validating the effectiveness of WLC in advancing agent research. We release our benchmark at https://github.com/WangShao2000/Wiki_Live_Challenge

Wiki Live Challenge: Sfidare Agenti di Ricerca Profonda con Articoli Wikipedia di Livello Esperto

Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles

Abstract

Support