ChatPaper.aiChatPaper

DeepResearch Arena: セミナーに基づくタスクによるLLMの研究能力の初めての試験

DeepResearch Arena: The First Exam of LLMs' Research Abilities via Seminar-Grounded Tasks

September 1, 2025
著者: Haiyuan Wan, Chen Yang, Junchi Yu, Meiqi Tu, Jiaxuan Lu, Di Yu, Jianbao Cao, Ben Gao, Jiaqing Xie, Aoran Wang, Wenlong Zhang, Philip Torr, Dongzhan Zhou
cs.AI

要旨

深層研究エージェントは、文献の統合、方法論の設計、実証的検証にわたる多段階の研究ワークフローを調整する可能性から、注目を集めています。しかしながら、研究者の関心と知的探求心を真に捉える最先端の研究課題を収集する難しさから、その研究能力を忠実に評価することは非常に困難です。このギャップを埋めるため、我々は学術セミナーに基づいたベンチマーク「DeepResearch Arena」を導入しました。これは、専門家の豊富な議論と相互作用を捉え、現実世界の研究環境をよりよく反映し、データ漏洩のリスクを低減します。DeepResearch Arenaを自動的に構築するために、我々はセミナーのトランスクリプトから研究に値するインスピレーションを抽出する「Multi-Agent Hierarchical Task Generation (MAHTG)」システムを提案しました。MAHTGシステムは、研究に値するインスピレーションを高品質な研究タスクに変換し、研究タスクの策定のトレーサビリティを確保しながらノイズをフィルタリングします。MAHTGシステムを用いて、我々は200以上の学術セミナーから12の分野(文学、歴史、科学など)にわたる10,000以上の高品質な研究タスクをDeepResearch Arenaにキュレーションしました。我々の広範な評価により、DeepResearch Arenaが現在の最先端エージェントにとって大きな課題を提示し、異なるモデル間で明確な性能差が観察されることが示されました。
English
Deep research agents have attracted growing attention for their potential to orchestrate multi-stage research workflows, spanning literature synthesis, methodological design, and empirical verification. Despite these strides, evaluating their research capability faithfully is rather challenging due to the difficulty of collecting frontier research questions that genuinely capture researchers' attention and intellectual curiosity. To address this gap, we introduce DeepResearch Arena, a benchmark grounded in academic seminars that capture rich expert discourse and interaction, better reflecting real-world research environments and reducing the risk of data leakage. To automatically construct DeepResearch Arena, we propose a Multi-Agent Hierarchical Task Generation (MAHTG) system that extracts research-worthy inspirations from seminar transcripts. The MAHTG system further translates research-worthy inspirations into high-quality research tasks, ensuring the traceability of research task formulation while filtering noise. With the MAHTG system, we curate DeepResearch Arena with over 10,000 high-quality research tasks from over 200 academic seminars, spanning 12 disciplines, such as literature, history, and science. Our extensive evaluation shows that DeepResearch Arena presents substantial challenges for current state-of-the-art agents, with clear performance gaps observed across different models.
PDF401September 5, 2025