ResearchClawBench : un référentiel pour la recherche scientifique autonome de bout en bout

Résumé

Les agents de codage IA sont de plus en plus utilisés pour le travail scientifique, mais leur capacité de recherche autonome de bout en bout reste difficile à vérifier. Nous présentons ResearchClawBench, un benchmark pour évaluer la recherche scientifique autonome à travers 40 tâches provenant de 10 domaines scientifiques. Chaque tâche est ancrée dans un article publié réel, fournit la littérature connexe et les données brutes, et masque l'article cible pendant l'évaluation. Des rubriques multimodales élaborées par des experts décomposent les artefacts scientifiques cibles en critères pondérés, permettant d'évaluer la redécouverte au niveau de l'article cible tout en laissant place à de nouvelles découvertes. Nous évaluons sept agents de recherche autonome (auto-recherche) selon un protocole unifié et dix-sept LLM natifs via le ResearchHarness léger. Les systèmes actuels restent loin d'une redécouverte fiable : l'agent autonome le plus performant, Claude Code, obtient une moyenne de 21,5, et le LLM ResearchHarness le plus performant, Claude-Opus-4.7, une moyenne de 20,7, avec une moyenne de pointe des LLM de seulement 26,5. L'analyse des erreurs montre que les échecs se concentrent sur l'inadéquation du protocole expérimental, l'inadéquation des preuves et l'absence de noyau scientifique. ResearchClawBench fournit une frontière d'évaluation reproductible pour mesurer les progrès vers la recherche scientifique autonome.

English

AI coding agents are increasingly used for scientific work, but their end-to-end autonomous research capability remains difficult to verify. We present ResearchClawBench, a benchmark for evaluating autonomous scientific research across 40 tasks from 10 scientific domains. Each task is grounded in a real published paper, provides related literature and raw data, and hides the target paper during evaluation. Expert-curated multimodal rubrics decompose the target scientific artifacts into weighted criteria, enabling evaluation of target-paper-level re-discovery while leaving room for new discovery. We evaluate seven autonomous research (auto-research) agents under a unified protocol and seventeen native LLMs through the lightweight ResearchHarness. Current systems remain far from reliable re-discovery: the strongest autonomous agent, Claude Code, averages 21.5, and the strongest ResearchHarness LLM, Claude-Opus-4.7, averages 20.7, with an LLM frontier mean of only 26.5. Error analysis shows that failures concentrate in experimental protocol mismatch, evidence mismatch, and missing scientific core. ResearchClawBench provides a reproducible evaluation frontier for measuring progress toward autonomous scientific research.