ResearchClawBench: un punto de referencia para la investigación científica autónoma de extremo a extremo

Resumen

Los agentes de codificación de IA se utilizan cada vez más en el trabajo científico, pero su capacidad de investigación autónoma de extremo a extremo sigue siendo difícil de verificar. Presentamos ResearchClawBench, un punto de referencia para evaluar la investigación científica autónoma en 40 tareas de 10 dominios científicos. Cada tarea se basa en un artículo publicado real, proporciona literatura relacionada y datos sin procesar, y oculta el artículo objetivo durante la evaluación. Rúbricas multimodales elaboradas por expertos descomponen los artefactos científicos objetivo en criterios ponderados, lo que permite evaluar el redescubrimiento a nivel del artículo objetivo al tiempo que deja espacio para nuevos descubrimientos. Evaluamos siete agentes de investigación autónoma (auto-investigación) bajo un protocolo unificado y diecisiete LLMs nativos a través del ResearchHarness ligero. Los sistemas actuales siguen estando lejos de un redescubrimiento fiable: el agente autónomo más fuerte, Claude Code, promedia 21.5, y el LLM de ResearchHarness más fuerte, Claude-Opus-4.7, promedia 20.7, con una media frontera de LLM de solo 26.5. El análisis de errores muestra que los fallos se concentran en desajustes del protocolo experimental, desajustes de evidencia y falta de núcleo científico. ResearchClawBench proporciona una frontera de evaluación reproducible para medir el progreso hacia la investigación científica autónoma.

English

AI coding agents are increasingly used for scientific work, but their end-to-end autonomous research capability remains difficult to verify. We present ResearchClawBench, a benchmark for evaluating autonomous scientific research across 40 tasks from 10 scientific domains. Each task is grounded in a real published paper, provides related literature and raw data, and hides the target paper during evaluation. Expert-curated multimodal rubrics decompose the target scientific artifacts into weighted criteria, enabling evaluation of target-paper-level re-discovery while leaving room for new discovery. We evaluate seven autonomous research (auto-research) agents under a unified protocol and seventeen native LLMs through the lightweight ResearchHarness. Current systems remain far from reliable re-discovery: the strongest autonomous agent, Claude Code, averages 21.5, and the strongest ResearchHarness LLM, Claude-Opus-4.7, averages 20.7, with an LLM frontier mean of only 26.5. Error analysis shows that failures concentrate in experimental protocol mismatch, evidence mismatch, and missing scientific core. ResearchClawBench provides a reproducible evaluation frontier for measuring progress toward autonomous scientific research.