DailyReport: Een open-eindbenchmark voor het evalueren van zoekagenten op dagelijkse zoektaken

Samenvatting

Search Agents (SA's) maken doorgaans gebruik van grote taalmodellen (LLM's) om complexe informatiezoekende taken te ondersteunen door autonoom webbronnen te verkennen en informatie te synthetiseren tot uitgebreide antwoorden. Voor de evaluatie van SA's richten eerdere benchmarks zich voornamelijk op gespecialiseerde taken die zelden voorkomen in realistische gebruikersscenario's. Bovendien beperkt hun afhankelijkheid van grove rubriceringen op taakniveau vaak de interpreteerbaarheid van evaluaties. Om dit hiaat te overbruggen, introduceren we DailyReport, een open einde benchmark om de capaciteiten van SA's te evalueren op dagelijkse zoektaken. Het bevat 150 taken met een open einde met 3.546 bijbehorende rubriceringen, die veelbesproken en actuele informatiebehoeften van echte gebruikers weergeven. Elke taak wordt opgedeeld in subtaken en geëvalueerd met cascade-rubriceringen over ontwarde dimensies. Via cascaderende prestatieattributie en gebruikersgerichte aggregatie leiden we zeer interpreteerbare scores af voor elke dimensie, samen met een gebruikersvoorkeursscore. Onze resultaten op 17 agentische systemen tonen aan dat huidige systemen nog steeds tekortschieten ten opzichte van de verwachtingen van gebruikers. Om toekomstig onderzoek te ondersteunen, worden onze dataset en code openbaar beschikbaar gesteld op https://github.com/AGI-Eval-Official/DailyReport.

English

Search Agents (SAs) typically leverage large language models (LLMs) to support complex information-seeking tasks by autonomously exploring web sources and synthesizing information into comprehensive responses. For SAs evaluation, prior benchmarks mainly focus on specialized tasks that are unlikely to arise in real-world user scenarios. Moreover, their reliance on coarse task-level rubrics often limits evaluation interpretability. To bridge this gap, we introduce DailyReport, an open-ended benchmark to evaluate SA capabilities on daily search tasks. It contains 150 open-ended tasks with 3,546 associated rubrics, capturing widely discussed and timely information demands of real-world users. Each task is decomposed into subtasks and evaluated with cascade rubrics across disentangled dimensions. Through cascade performance attribution and user-centric aggregation, we derive highly interpretable scores for each dimension, along with a user preference score. Our results on 17 agentic systems show that current systems still fall short of users' expectations. To facilitate future research, our dataset and code are made publicly available at https://github.com/AGI-Eval-Official/DailyReport.