ChatPaper.aiChatPaper

DeepResearch Arena: De Eerste Evaluatie van Onderzoeksvaardigheden van LLM's via Seminar-Gebaseerde Taken

DeepResearch Arena: The First Exam of LLMs' Research Abilities via Seminar-Grounded Tasks

September 1, 2025
Auteurs: Haiyuan Wan, Chen Yang, Junchi Yu, Meiqi Tu, Jiaxuan Lu, Di Yu, Jianbao Cao, Ben Gao, Jiaqing Xie, Aoran Wang, Wenlong Zhang, Philip Torr, Dongzhan Zhou
cs.AI

Samenvatting

Diepgaande onderzoeksagenten hebben steeds meer aandacht gekregen vanwege hun potentieel om meerfasige onderzoeksworkflows te coördineren, variërend van literatuursynthese, methodologisch ontwerp en empirische verificatie. Ondanks deze vooruitgang blijft het nauwkeurig evalueren van hun onderzoekscapaciteit een uitdaging, vooral vanwege de moeilijkheid om grensverleggende onderzoeksvragen te verzamelen die daadwerkelijk de aandacht en intellectuele nieuwsgierigheid van onderzoekers wekken. Om deze kloof te overbruggen, introduceren we DeepResearch Arena, een benchmark gebaseerd op academische seminars die rijke expertdiscussies en interacties vastleggen, waardoor realistische onderzoeksomgevingen beter worden weerspiegeld en het risico op datalekken wordt verminderd. Om DeepResearch Arena automatisch te construeren, stellen we een Multi-Agent Hiërarchische Taakgeneratie (MAHTG)-systeem voor dat onderzoekswaardige inspiraties uit seminarverslagen haalt. Het MAHTG-systeem vertaalt deze inspiraties vervolgens in hoogwaardige onderzoektaken, waardoor de traceerbaarheid van de taakformulering wordt gewaarborgd en ruis wordt gefilterd. Met het MAHTG-systeem hebben we DeepResearch Arena samengesteld met meer dan 10.000 hoogwaardige onderzoektaken uit meer dan 200 academische seminars, verspreid over 12 disciplines, zoals literatuur, geschiedenis en wetenschap. Onze uitgebreide evaluatie toont aan dat DeepResearch Arena aanzienlijke uitdagingen biedt voor huidige state-of-the-art agenten, met duidelijke prestatieverschillen tussen verschillende modellen.
English
Deep research agents have attracted growing attention for their potential to orchestrate multi-stage research workflows, spanning literature synthesis, methodological design, and empirical verification. Despite these strides, evaluating their research capability faithfully is rather challenging due to the difficulty of collecting frontier research questions that genuinely capture researchers' attention and intellectual curiosity. To address this gap, we introduce DeepResearch Arena, a benchmark grounded in academic seminars that capture rich expert discourse and interaction, better reflecting real-world research environments and reducing the risk of data leakage. To automatically construct DeepResearch Arena, we propose a Multi-Agent Hierarchical Task Generation (MAHTG) system that extracts research-worthy inspirations from seminar transcripts. The MAHTG system further translates research-worthy inspirations into high-quality research tasks, ensuring the traceability of research task formulation while filtering noise. With the MAHTG system, we curate DeepResearch Arena with over 10,000 high-quality research tasks from over 200 academic seminars, spanning 12 disciplines, such as literature, history, and science. Our extensive evaluation shows that DeepResearch Arena presents substantial challenges for current state-of-the-art agents, with clear performance gaps observed across different models.
PDF565September 5, 2025