DeepResearch Arena: Die erste Prüfung der Forschungsfähigkeiten von LLMs durch seminarbezogene Aufgaben
DeepResearch Arena: The First Exam of LLMs' Research Abilities via Seminar-Grounded Tasks
September 1, 2025
papers.authors: Haiyuan Wan, Chen Yang, Junchi Yu, Meiqi Tu, Jiaxuan Lu, Di Yu, Jianbao Cao, Ben Gao, Jiaqing Xie, Aoran Wang, Wenlong Zhang, Philip Torr, Dongzhan Zhou
cs.AI
papers.abstract
Tiefe Forschungsagenten haben zunehmend Aufmerksamkeit für ihr Potenzial erregt, mehrstufige Forschungsabläufe zu orchestrieren, die von der Literaturrecherche über methodisches Design bis hin zur empirischen Überprüfung reichen. Trotz dieser Fortschritte ist die zuverlässige Bewertung ihrer Forschungsfähigkeiten äußerst herausfordernd, da es schwierig ist, aktuelle Forschungsfragen zu sammeln, die das Interesse und die intellektuelle Neugier von Forschern wirklich einfangen. Um diese Lücke zu schließen, stellen wir DeepResearch Arena vor, einen Benchmark, der auf akademischen Seminaren basiert, die reichhaltige Experten-Diskurse und Interaktionen erfassen und somit realistische Forschungsumgebungen besser widerspiegeln und das Risiko von Datenlecks reduzieren. Um DeepResearch Arena automatisch zu konstruieren, schlagen wir ein Multi-Agent Hierarchical Task Generation (MAHTG) System vor, das forschungswürdige Inspirationen aus Seminartranskripten extrahiert. Das MAHTG-System übersetzt diese forschungswürdigen Inspirationen weiterhin in hochwertige Forschungsaufgaben, wodurch die Nachvollziehbarkeit der Formulierung von Forschungsaufgaben sichergestellt wird, während gleichzeitig Rauschen gefiltert wird. Mit dem MAHTG-System haben wir DeepResearch Arena mit über 10.000 hochwertigen Forschungsaufgaben aus mehr als 200 akademischen Seminaren kuratiert, die 12 Disziplinen wie Literatur, Geschichte und Wissenschaft abdecken. Unsere umfangreiche Evaluierung zeigt, dass DeepResearch Arena erhebliche Herausforderungen für aktuelle State-of-the-Art-Agenten darstellt, wobei deutliche Leistungsunterschiede zwischen verschiedenen Modellen beobachtet werden.
English
Deep research agents have attracted growing attention for their potential to
orchestrate multi-stage research workflows, spanning literature synthesis,
methodological design, and empirical verification. Despite these strides,
evaluating their research capability faithfully is rather challenging due to
the difficulty of collecting frontier research questions that genuinely capture
researchers' attention and intellectual curiosity. To address this gap, we
introduce DeepResearch Arena, a benchmark grounded in academic seminars that
capture rich expert discourse and interaction, better reflecting real-world
research environments and reducing the risk of data leakage. To automatically
construct DeepResearch Arena, we propose a Multi-Agent Hierarchical Task
Generation (MAHTG) system that extracts research-worthy inspirations from
seminar transcripts. The MAHTG system further translates research-worthy
inspirations into high-quality research tasks, ensuring the traceability of
research task formulation while filtering noise. With the MAHTG system, we
curate DeepResearch Arena with over 10,000 high-quality research tasks from
over 200 academic seminars, spanning 12 disciplines, such as literature,
history, and science. Our extensive evaluation shows that DeepResearch Arena
presents substantial challenges for current state-of-the-art agents, with clear
performance gaps observed across different models.