DailyReport: un benchmark abierto para evaluar agentes de búsqueda en tareas de búsqueda cotidianas

Resumen

Los Agentes de Búsqueda (SA) suelen aprovechar modelos de lenguaje grandes (LLMs) para apoyar tareas complejas de búsqueda de información, explorando fuentes web de forma autónoma y sintetizando la información en respuestas completas. Para la evaluación de los SA, los puntos de referencia previos se centran principalmente en tareas especializadas que difícilmente surgen en escenarios reales de uso. Además, su dependencia de rúbricas toscas a nivel de tarea suele limitar la interpretabilidad de la evaluación. Para cerrar esta brecha, presentamos DailyReport, un punto de referencia de propósito abierto para evaluar las capacidades de los SA en tareas de búsqueda cotidianas. Contiene 150 tareas de propósito abierto con 3,546 rúbricas asociadas, capturando demandas de información ampliamente discutidas y oportunas de usuarios reales. Cada tarea se descompone en subtareas y se evalúa con rúbricas en cascada a través de dimensiones desglosadas. Mediante la atribución de rendimiento en cascada y la agregación centrada en el usuario, obtenemos puntuaciones altamente interpretables para cada dimensión, junto con una puntuación de preferencia del usuario. Nuestros resultados en 17 sistemas agentivos muestran que los sistemas actuales aún no alcanzan las expectativas de los usuarios. Para facilitar futuras investigaciones, nuestro conjunto de datos y código están disponibles públicamente en https://github.com/AGI-Eval-Official/DailyReport.

English

Search Agents (SAs) typically leverage large language models (LLMs) to support complex information-seeking tasks by autonomously exploring web sources and synthesizing information into comprehensive responses. For SAs evaluation, prior benchmarks mainly focus on specialized tasks that are unlikely to arise in real-world user scenarios. Moreover, their reliance on coarse task-level rubrics often limits evaluation interpretability. To bridge this gap, we introduce DailyReport, an open-ended benchmark to evaluate SA capabilities on daily search tasks. It contains 150 open-ended tasks with 3,546 associated rubrics, capturing widely discussed and timely information demands of real-world users. Each task is decomposed into subtasks and evaluated with cascade rubrics across disentangled dimensions. Through cascade performance attribution and user-centric aggregation, we derive highly interpretable scores for each dimension, along with a user preference score. Our results on 17 agentic systems show that current systems still fall short of users' expectations. To facilitate future research, our dataset and code are made publicly available at https://github.com/AGI-Eval-Official/DailyReport.