ResearchClawBench: Ein Benchmark für durchgängig autonome wissenschaftliche Forschung
ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research
May 28, 2026
Autoren: Wanghan Xu, Shuo Li, Tianlin Ye, Qinglong Cao, Yixin Chen, Hengjian Gao, Yiheng Wang, Qi Li, Kun Li, Sheng Xu, Shengdu Chai, Fangchen Yu, Xiangyu Zhao, Zhangrui Zhao, Weijie Ma, Zijie Guo, Haoyu Zhou, Haoxiang Yin, Lixue Cheng, Chaofan Hu, Haoxuan Li, Lu Mi, Xuxuan Xie, Yifan Zhou, Ruizhe Chen, Zhiwang Zhou, Xingjian Guo, Yuhao Zhou, Xuming He, Shengyuan Xu, Xinyu Gu, Jiamin Wu, Mianxin Liu, Chunfeng Song, Fenghua Ling, Dongzhan Zhou, Shixiang Tang, Yuqiang Li, Mao Su, Peng Ye, Siqi Sun, Bin Wang, Xue Yang, Zhenfei Yin, Tianfan Fu, Guangtao Zhai, Wanli Ouyang, Bo Zhang, Lei Bai, Wenlong Zhang
cs.AI
Zusammenfassung
KI-Codierungsagenten werden zunehmend für wissenschaftliche Arbeiten eingesetzt, doch ihre durchgängige autonome Forschungsfähigkeit bleibt schwer zu überprüfen. Wir stellen ResearchClawBench vor, einen Benchmark zur Bewertung autonomer wissenschaftlicher Forschung mit 40 Aufgaben aus 10 wissenschaftlichen Bereichen. Jede Aufgabe basiert auf einer tatsächlich veröffentlichten Arbeit, stellt verwandte Literatur und Rohdaten bereit und verbirgt die Zielarbeit während der Evaluierung. Von Experten kuratierte multimodale Rubriken zerlegen die wissenschaftlichen Zielartefakte in gewichtete Kriterien, was eine Bewertung der Wiederentdeckung auf dem Niveau der Zielarbeit ermöglicht, gleichzeitig aber Raum für neue Entdeckungen lässt. Wir bewerten sieben autonome Forschungsagenten (Auto-Research-Agenten) unter einem einheitlichen Protokoll und siebzehn native LLMs mittels des leichten ResearchHarness. Aktuelle Systeme sind noch weit von einer zuverlässigen Wiederentdeckung entfernt: Der stärkste autonome Agent, Claude Code, erreicht durchschnittlich 21,5, und der stärkste ResearchHarness-LLM, Claude-Opus-4.7, erreicht durchschnittlich 20,7, bei einem LLM-Frontier-Mittelwert von nur 26,5. Fehleranalysen zeigen, dass Fehler hauptsächlich in den Bereichen Abweichung des Versuchsprotokolls, Abweichung der Evidenz und Fehlen des wissenschaftlichen Kerns auftreten. ResearchClawBench bietet eine reproduzierbare Evaluierungsgrenze zur Messung des Fortschritts in Richtung autonomer wissenschaftlicher Forschung.
English
AI coding agents are increasingly used for scientific work, but their end-to-end autonomous research capability remains difficult to verify. We present ResearchClawBench, a benchmark for evaluating autonomous scientific research across 40 tasks from 10 scientific domains. Each task is grounded in a real published paper, provides related literature and raw data, and hides the target paper during evaluation. Expert-curated multimodal rubrics decompose the target scientific artifacts into weighted criteria, enabling evaluation of target-paper-level re-discovery while leaving room for new discovery. We evaluate seven autonomous research (auto-research) agents under a unified protocol and seventeen native LLMs through the lightweight ResearchHarness. Current systems remain far from reliable re-discovery: the strongest autonomous agent, Claude Code, averages 21.5, and the strongest ResearchHarness LLM, Claude-Opus-4.7, averages 20.7, with an LLM frontier mean of only 26.5. Error analysis shows that failures concentrate in experimental protocol mismatch, evidence mismatch, and missing scientific core. ResearchClawBench provides a reproducible evaluation frontier for measuring progress toward autonomous scientific research.