DailyReport : Un benchmark ouvert pour évaluer les agents de recherche sur des tâches de recherche quotidiennes

Résumé

Les agents de recherche (AR) exploitent généralement des modèles de langage de grande taille (MLGT) pour soutenir des tâches complexes de recherche d'informations en explorant de manière autonome des sources web et en synthétisant les informations en réponses complètes. Pour l'évaluation des AR, les référentiels antérieurs se concentrent principalement sur des tâches spécialisées qui ont peu de chances de survenir dans des scénarios d'utilisation réels. De plus, leur dépendance à des grilles d'évaluation grossières au niveau des tâches limite souvent l'interprétabilité de l'évaluation. Pour combler cette lacune, nous introduisons DailyReport, un référentiel ouvert conçu pour évaluer les capacités des AR sur des tâches de recherche quotidiennes. Il contient 150 tâches ouvertes avec 3 546 grilles d'évaluation associées, capturant les demandes d'information largement discutées et actuelles des utilisateurs réels. Chaque tâche est décomposée en sous-tâches et évaluée à l'aide de grilles d'évaluation en cascade selon des dimensions désintriquées. Grâce à une attribution de performance en cascade et à une agrégation centrée sur l'utilisateur, nous obtenons des scores hautement interprétables pour chaque dimension, ainsi qu'un score de préférence utilisateur. Nos résultats sur 17 systèmes agentiques montrent que les systèmes actuels sont encore en deçà des attentes des utilisateurs. Pour faciliter les recherches futures, notre ensemble de données et notre code sont mis à disposition publiquement à l'adresse https://github.com/AGI-Eval-Official/DailyReport.

English

Search Agents (SAs) typically leverage large language models (LLMs) to support complex information-seeking tasks by autonomously exploring web sources and synthesizing information into comprehensive responses. For SAs evaluation, prior benchmarks mainly focus on specialized tasks that are unlikely to arise in real-world user scenarios. Moreover, their reliance on coarse task-level rubrics often limits evaluation interpretability. To bridge this gap, we introduce DailyReport, an open-ended benchmark to evaluate SA capabilities on daily search tasks. It contains 150 open-ended tasks with 3,546 associated rubrics, capturing widely discussed and timely information demands of real-world users. Each task is decomposed into subtasks and evaluated with cascade rubrics across disentangled dimensions. Through cascade performance attribution and user-centric aggregation, we derive highly interpretable scores for each dimension, along with a user preference score. Our results on 17 agentic systems show that current systems still fall short of users' expectations. To facilitate future research, our dataset and code are made publicly available at https://github.com/AGI-Eval-Official/DailyReport.