ChatPaper.aiChatPaper

ResearchClawBench: Um Benchmark para Pesquisa Científica Autônoma de Ponta a Ponta

ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research

May 28, 2026
Autores: Wanghan Xu, Shuo Li, Tianlin Ye, Qinglong Cao, Yixin Chen, Hengjian Gao, Yiheng Wang, Qi Li, Kun Li, Sheng Xu, Shengdu Chai, Fangchen Yu, Xiangyu Zhao, Zhangrui Zhao, Weijie Ma, Zijie Guo, Haoyu Zhou, Haoxiang Yin, Lixue Cheng, Chaofan Hu, Haoxuan Li, Lu Mi, Xuxuan Xie, Yifan Zhou, Ruizhe Chen, Zhiwang Zhou, Xingjian Guo, Yuhao Zhou, Xuming He, Shengyuan Xu, Xinyu Gu, Jiamin Wu, Mianxin Liu, Chunfeng Song, Fenghua Ling, Dongzhan Zhou, Shixiang Tang, Yuqiang Li, Mao Su, Peng Ye, Siqi Sun, Bin Wang, Xue Yang, Zhenfei Yin, Tianfan Fu, Guangtao Zhai, Wanli Ouyang, Bo Zhang, Lei Bai, Wenlong Zhang
cs.AI

Resumo

Agentes de codificação de IA são cada vez mais utilizados em trabalhos científicos, mas sua capacidade de pesquisa autônoma de ponta a ponta ainda é difícil de verificar. Apresentamos o ResearchClawBench, um benchmark para avaliar pesquisa científica autônoma em 40 tarefas de 10 domínios científicos. Cada tarefa está fundamentada em um artigo real publicado, fornece literatura relacionada e dados brutos, e oculta o artigo alvo durante a avaliação. Rubricas multimodais elaboradas por especialistas decompõem os artefatos científicos alvo em critérios ponderados, permitindo a avaliação da redescoberta em nível de artigo alvo, ao mesmo tempo que deixam espaço para novas descobertas. Avaliamos sete agentes de auto-pesquisa sob um protocolo unificado e dezessete LLMs nativos por meio do ResearchHarness leve. Os sistemas atuais ainda estão longe de uma redescoberta confiável: o agente autônomo mais forte, Claude Code, atinge média de 21,5, e o LLM do ResearchHarness mais forte, Claude-Opus-4.7, atinge média de 20,7, com uma média da fronteira dos LLMs de apenas 26,5. A análise de erros mostra que as falhas se concentram em incompatibilidade de protocolo experimental, incompatibilidade de evidências e ausência de núcleo científico. O ResearchClawBench fornece uma fronteira de avaliação reproduzível para medir o progresso em direção à pesquisa científica autônoma.
English
AI coding agents are increasingly used for scientific work, but their end-to-end autonomous research capability remains difficult to verify. We present ResearchClawBench, a benchmark for evaluating autonomous scientific research across 40 tasks from 10 scientific domains. Each task is grounded in a real published paper, provides related literature and raw data, and hides the target paper during evaluation. Expert-curated multimodal rubrics decompose the target scientific artifacts into weighted criteria, enabling evaluation of target-paper-level re-discovery while leaving room for new discovery. We evaluate seven autonomous research (auto-research) agents under a unified protocol and seventeen native LLMs through the lightweight ResearchHarness. Current systems remain far from reliable re-discovery: the strongest autonomous agent, Claude Code, averages 21.5, and the strongest ResearchHarness LLM, Claude-Opus-4.7, averages 20.7, with an LLM frontier mean of only 26.5. Error analysis shows that failures concentrate in experimental protocol mismatch, evidence mismatch, and missing scientific core. ResearchClawBench provides a reproducible evaluation frontier for measuring progress toward autonomous scientific research.