ChatPaper.aiChatPaper

DeepResearch Arena: O Primeiro Teste das Habilidades de Pesquisa de LLMs por meio de Tarefas Baseadas em Seminários

DeepResearch Arena: The First Exam of LLMs' Research Abilities via Seminar-Grounded Tasks

September 1, 2025
Autores: Haiyuan Wan, Chen Yang, Junchi Yu, Meiqi Tu, Jiaxuan Lu, Di Yu, Jianbao Cao, Ben Gao, Jiaqing Xie, Aoran Wang, Wenlong Zhang, Philip Torr, Dongzhan Zhou
cs.AI

Resumo

Agentes de pesquisa profunda têm atraído crescente atenção por seu potencial para orquestrar fluxos de trabalho de pesquisa em múltiplas etapas, abrangendo síntese de literatura, design metodológico e verificação empírica. Apesar desses avanços, avaliar fielmente sua capacidade de pesquisa é bastante desafiador devido à dificuldade de coletar questões de pesquisa de ponta que genuinamente capturam a atenção e a curiosidade intelectual dos pesquisadores. Para abordar essa lacuna, introduzimos o DeepResearch Arena, um benchmark fundamentado em seminários acadêmicos que capturam rico discurso e interação de especialistas, refletindo melhor os ambientes de pesquisa do mundo real e reduzindo o risco de vazamento de dados. Para construir automaticamente o DeepResearch Arena, propomos um sistema de Geração Hierárquica de Tarefas Multi-Agentes (MAHTG) que extrai inspirações dignas de pesquisa a partir de transcrições de seminários. O sistema MAHTG ainda traduz essas inspirações em tarefas de pesquisa de alta qualidade, garantindo a rastreabilidade da formulação das tarefas de pesquisa enquanto filtra ruídos. Com o sistema MAHTG, curamos o DeepResearch Arena com mais de 10.000 tarefas de pesquisa de alta qualidade provenientes de mais de 200 seminários acadêmicos, abrangendo 12 disciplinas, como literatura, história e ciência. Nossa extensa avaliação mostra que o DeepResearch Arena apresenta desafios substanciais para os agentes state-of-the-art atuais, com claras lacunas de desempenho observadas entre diferentes modelos.
English
Deep research agents have attracted growing attention for their potential to orchestrate multi-stage research workflows, spanning literature synthesis, methodological design, and empirical verification. Despite these strides, evaluating their research capability faithfully is rather challenging due to the difficulty of collecting frontier research questions that genuinely capture researchers' attention and intellectual curiosity. To address this gap, we introduce DeepResearch Arena, a benchmark grounded in academic seminars that capture rich expert discourse and interaction, better reflecting real-world research environments and reducing the risk of data leakage. To automatically construct DeepResearch Arena, we propose a Multi-Agent Hierarchical Task Generation (MAHTG) system that extracts research-worthy inspirations from seminar transcripts. The MAHTG system further translates research-worthy inspirations into high-quality research tasks, ensuring the traceability of research task formulation while filtering noise. With the MAHTG system, we curate DeepResearch Arena with over 10,000 high-quality research tasks from over 200 academic seminars, spanning 12 disciplines, such as literature, history, and science. Our extensive evaluation shows that DeepResearch Arena presents substantial challenges for current state-of-the-art agents, with clear performance gaps observed across different models.
PDF544September 5, 2025