Вики-живой вызов: Испытание агентов глубокого анализа экспертно-уровневыми статьями Википедии

Аннотация

Глубокие исследовательские агенты (DRA) продемонстрировали впечатляющие способности в автономном поиске информации и генерации отчетов, показав большой потенциал для помощи людям в выполнении сложных исследовательских задач. Современные системы оценки в основном полагаются на сгенерированные большими языковыми моделями (LLM) эталоны или производные от LLM критерии оценки. Хотя такие подходы обеспечивают масштабируемость, они часто не обладают надежностью экспертно-проверенного контента и не способны обеспечить объективную, детализированную оценку по ключевым параметрам. Для преодоления этого разрыва мы представляем Wiki Live Challenge (WLC) — динамичный бенчмарк, использующий новейшие «Хорошие статьи» (Good Articles, GA) Википедии в качестве экспертных эталонов. Строгие стандарты Википедии в отношении нейтральности, полноты и проверяемости представляют собой серьезный вызов для DRA, а «Хорошие статьи» являются вершиной соответствия этим стандартам. Мы собрали набор данных из 100 недавних «Хороших статей» и предлагаем Wiki Eval — комплексную систему оценки, включающую детализированный метод оценки с 39 критериями качества написания и строгие метрики фактической проверяемости. Многочисленные эксперименты с различными системами DRA выявили значительный разрыв между современными агентами и статьями Википедии, созданными экспертами-людьми, что подтверждает эффективность WLC для развития исследований в области агентов. Мы публикуем наш бенчмарк по адресу: https://github.com/WangShao2000/Wiki_Live_Challenge.

English

Deep Research Agents (DRAs) have demonstrated remarkable capabilities in autonomous information retrieval and report generation, showing great potential to assist humans in complex research tasks. Current evaluation frameworks primarily rely on LLM-generated references or LLM-derived evaluation dimensions. While these approaches offer scalability, they often lack the reliability of expert-verified content and struggle to provide objective, fine-grained assessments of critical dimensions. To bridge this gap, we introduce Wiki Live Challenge (WLC), a live benchmark that leverages the newest Wikipedia Good Articles (GAs) as expert-level references. Wikipedia's strict standards for neutrality, comprehensiveness, and verifiability serve as a great challenge for DRAs, with GAs representing the pinnacle of which. We curate a dataset of 100 recent Good Articles and propose Wiki Eval, a comprehensive evaluation framework comprising a fine-grained evaluation method with 39 criteria for writing quality and rigorous metrics for factual verifiability. Extensive experiments on various DRA systems demonstrate a significant gap between current DRAs and human expert-level Wikipedia articles, validating the effectiveness of WLC in advancing agent research. We release our benchmark at https://github.com/WangShao2000/Wiki_Live_Challenge

Вики-живой вызов: Испытание агентов глубокого анализа экспертно-уровневыми статьями Википедии

Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles

Аннотация

Support