DailyReport: Ein offener Benchmark zur Bewertung von Suchagenten bei alltäglichen Suchaufgaben

Zusammenfassung

Suchagenten (SAs) nutzen typischerweise große Sprachmodelle (LLMs), um komplexe informationssuchende Aufgaben zu unterstützen, indem sie autonom Webquellen erkunden und Informationen zu umfassenden Antworten synthetisieren. Für die Bewertung von SAs konzentrieren sich frühere Benchmarks hauptsächlich auf spezialisierte Aufgaben, die in realen Benutzerszenarien unwahrscheinlich auftreten. Darüber hinaus schränkt ihre Abhängigkeit von groben aufgabenbezogenen Rubriken oft die Interpretierbarkeit der Bewertung ein. Um diese Lücke zu schließen, stellen wir DailyReport vor, einen offenen Benchmark zur Bewertung von SA-Fähigkeiten bei täglichen Suchaufgaben. Er enthält 150 offene Aufgaben mit 3.546 zugehörigen Rubriken, die weit diskutierte und zeitnahe Informationsbedürfnisse realer Nutzer abbilden. Jede Aufgabe wird in Teilaufgaben zerlegt und mit Kaskadenrubriken über entkoppelte Dimensionen hinweg bewertet. Durch Kaskaden-Leistungszuordnung und nutzerzentrierte Aggregation leiten wir hochgradig interpretierbare Bewertungen für jede Dimension sowie einen Benutzerpräferenzwert ab. Unsere Ergebnisse an 17 agentischen Systemen zeigen, dass aktuelle Systeme noch hinter den Erwartungen der Nutzer zurückbleiben. Um zukünftige Forschung zu erleichtern, stellen wir unseren Datensatz und Code unter https://github.com/AGI-Eval-Official/DailyReport öffentlich zur Verfügung.

English

Search Agents (SAs) typically leverage large language models (LLMs) to support complex information-seeking tasks by autonomously exploring web sources and synthesizing information into comprehensive responses. For SAs evaluation, prior benchmarks mainly focus on specialized tasks that are unlikely to arise in real-world user scenarios. Moreover, their reliance on coarse task-level rubrics often limits evaluation interpretability. To bridge this gap, we introduce DailyReport, an open-ended benchmark to evaluate SA capabilities on daily search tasks. It contains 150 open-ended tasks with 3,546 associated rubrics, capturing widely discussed and timely information demands of real-world users. Each task is decomposed into subtasks and evaluated with cascade rubrics across disentangled dimensions. Through cascade performance attribution and user-centric aggregation, we derive highly interpretable scores for each dimension, along with a user preference score. Our results on 17 agentic systems show that current systems still fall short of users' expectations. To facilitate future research, our dataset and code are made publicly available at https://github.com/AGI-Eval-Official/DailyReport.