DailyReport: Открытый бенчмарк для оценки поисковых агентов на повседневных поисковых задачах

Аннотация

Агенты поиска (АП) обычно используют большие языковые модели (БЯМ) для поддержки сложных задач информационного поиска, автономно исследуя веб-источники и обобщая информацию в всесторонние ответы. Для оценки АП предыдущие бенчмарки в основном сосредоточены на специализированных задачах, которые вряд ли возникают в реальных пользовательских сценариях. Более того, их опора на грубые рубрики на уровне задач часто ограничивает интерпретируемость оценки. Чтобы восполнить этот пробел, мы представляем DailyReport — открытый бенчмарк для оценки возможностей АП в повседневных задачах поиска. Он содержит 150 открытых задач с 3546 связанными рубриками, отражающими широко обсуждаемые и актуальные информационные потребности реальных пользователей. Каждая задача декомпозирована на подзадачи и оценивается с помощью каскадных рубрик по раздельным измерениям. Благодаря каскадной атрибуции производительности и пользовательской агрегации мы получаем высокоинтерпретируемые оценки по каждому измерению, а также оценку предпочтений пользователя. Наши результаты по 17 агентным системам показывают, что текущие системы всё ещё не дотягивают до ожиданий пользователей. Чтобы способствовать дальнейшим исследованиям, наш набор данных и код публично доступны по адресу https://github.com/AGI-Eval-Official/DailyReport.

English

Search Agents (SAs) typically leverage large language models (LLMs) to support complex information-seeking tasks by autonomously exploring web sources and synthesizing information into comprehensive responses. For SAs evaluation, prior benchmarks mainly focus on specialized tasks that are unlikely to arise in real-world user scenarios. Moreover, their reliance on coarse task-level rubrics often limits evaluation interpretability. To bridge this gap, we introduce DailyReport, an open-ended benchmark to evaluate SA capabilities on daily search tasks. It contains 150 open-ended tasks with 3,546 associated rubrics, capturing widely discussed and timely information demands of real-world users. Each task is decomposed into subtasks and evaluated with cascade rubrics across disentangled dimensions. Through cascade performance attribution and user-centric aggregation, we derive highly interpretable scores for each dimension, along with a user preference score. Our results on 17 agentic systems show that current systems still fall short of users' expectations. To facilitate future research, our dataset and code are made publicly available at https://github.com/AGI-Eval-Official/DailyReport.