ResearchClawBench: Ein Benchmark für durchgängig autonome wissenschaftliche Forschung

Zusammenfassung

KI-Codierungsagenten werden zunehmend für wissenschaftliche Arbeiten eingesetzt, doch ihre durchgängige autonome Forschungsfähigkeit bleibt schwer zu überprüfen. Wir stellen ResearchClawBench vor, einen Benchmark zur Bewertung autonomer wissenschaftlicher Forschung mit 40 Aufgaben aus 10 wissenschaftlichen Bereichen. Jede Aufgabe basiert auf einer tatsächlich veröffentlichten Arbeit, stellt verwandte Literatur und Rohdaten bereit und verbirgt die Zielarbeit während der Evaluierung. Von Experten kuratierte multimodale Rubriken zerlegen die wissenschaftlichen Zielartefakte in gewichtete Kriterien, was eine Bewertung der Wiederentdeckung auf dem Niveau der Zielarbeit ermöglicht, gleichzeitig aber Raum für neue Entdeckungen lässt. Wir bewerten sieben autonome Forschungsagenten (Auto-Research-Agenten) unter einem einheitlichen Protokoll und siebzehn native LLMs mittels des leichten ResearchHarness. Aktuelle Systeme sind noch weit von einer zuverlässigen Wiederentdeckung entfernt: Der stärkste autonome Agent, Claude Code, erreicht durchschnittlich 21,5, und der stärkste ResearchHarness-LLM, Claude-Opus-4.7, erreicht durchschnittlich 20,7, bei einem LLM-Frontier-Mittelwert von nur 26,5. Fehleranalysen zeigen, dass Fehler hauptsächlich in den Bereichen Abweichung des Versuchsprotokolls, Abweichung der Evidenz und Fehlen des wissenschaftlichen Kerns auftreten. ResearchClawBench bietet eine reproduzierbare Evaluierungsgrenze zur Messung des Fortschritts in Richtung autonomer wissenschaftlicher Forschung.

English

AI coding agents are increasingly used for scientific work, but their end-to-end autonomous research capability remains difficult to verify. We present ResearchClawBench, a benchmark for evaluating autonomous scientific research across 40 tasks from 10 scientific domains. Each task is grounded in a real published paper, provides related literature and raw data, and hides the target paper during evaluation. Expert-curated multimodal rubrics decompose the target scientific artifacts into weighted criteria, enabling evaluation of target-paper-level re-discovery while leaving room for new discovery. We evaluate seven autonomous research (auto-research) agents under a unified protocol and seventeen native LLMs through the lightweight ResearchHarness. Current systems remain far from reliable re-discovery: the strongest autonomous agent, Claude Code, averages 21.5, and the strongest ResearchHarness LLM, Claude-Opus-4.7, averages 20.7, with an LLM frontier mean of only 26.5. Error analysis shows that failures concentrate in experimental protocol mismatch, evidence mismatch, and missing scientific core. ResearchClawBench provides a reproducible evaluation frontier for measuring progress toward autonomous scientific research.