ResearchClawBench: Een benchmark voor end-to-end autonoom wetenschappelijk onderzoek

Samenvatting

AI-codeeragents worden steeds vaker ingezet voor wetenschappelijk werk, maar hun end-to-end autonome onderzoekscapaciteit blijft moeilijk te verifiëren. We presenteren ResearchClawBench, een benchmark voor het evalueren van autonoom wetenschappelijk onderzoek aan de hand van 40 taken uit 10 wetenschappelijke domeinen. Elke taak is gebaseerd op een echte gepubliceerde paper, biedt gerelateerde literatuur en ruwe data, en verbergt de doelpapier tijdens de evaluatie. Door experts samengestelde multimodale rubrics ontleden de beoogde wetenschappelijke artefacten in gewogen criteria, waardoor herontdekking op het niveau van de doelpapier mogelijk wordt beoordeeld, terwijl er ruimte blijft voor nieuwe ontdekkingen. We evalueren zeven autonome onderzoeksagents (auto-research agents) onder een uniform protocol en zeventien native LLM's via het lichte ResearchHarness. Huidige systemen zijn nog ver verwijderd van betrouwbare herontdekking: de sterkste autonome agent, Claude Code, behaalt gemiddeld 21,5, en de sterkste ResearchHarness LLM, Claude-Opus-4.7, gemiddeld 20,7, met een LLM-frontiergemiddelde van slechts 26,5. Foutenanalyse toont aan dat mislukkingen zich concentreren in mismatch van experimenteel protocol, mismatch van bewijs en ontbrekende wetenschappelijke kern. ResearchClawBench biedt een reproduceerbare evaluatiegrens voor het meten van vooruitgang richting autonoom wetenschappelijk onderzoek.

English

AI coding agents are increasingly used for scientific work, but their end-to-end autonomous research capability remains difficult to verify. We present ResearchClawBench, a benchmark for evaluating autonomous scientific research across 40 tasks from 10 scientific domains. Each task is grounded in a real published paper, provides related literature and raw data, and hides the target paper during evaluation. Expert-curated multimodal rubrics decompose the target scientific artifacts into weighted criteria, enabling evaluation of target-paper-level re-discovery while leaving room for new discovery. We evaluate seven autonomous research (auto-research) agents under a unified protocol and seventeen native LLMs through the lightweight ResearchHarness. Current systems remain far from reliable re-discovery: the strongest autonomous agent, Claude Code, averages 21.5, and the strongest ResearchHarness LLM, Claude-Opus-4.7, averages 20.7, with an LLM frontier mean of only 26.5. Error analysis shows that failures concentrate in experimental protocol mismatch, evidence mismatch, and missing scientific core. ResearchClawBench provides a reproducible evaluation frontier for measuring progress toward autonomous scientific research.