ResearchClawBench: эталон для сквозных автономных научных исследований

Аннотация

Агенты ИИ-кодирования все чаще используются в научной работе, но их способность к полностью автономным исследованиям остается трудно проверяемой. Мы представляем ResearchClawBench — эталон для оценки автономных научных исследований, охватывающий 40 задач из 10 научных областей. Каждая задача основана на реальной опубликованной статье, включает связанную литературу и исходные данные, а целевая статья скрывается во время оценки. Экспертно составленные мультимодальные рубрики разбивают целевые научные артефакты на взвешенные критерии, позволяя оценивать повторное открытие на уровне целевой статьи, оставляя пространство для новых открытий. Мы оцениваем семь агентов автономных исследований (auto-research) по единому протоколу и семнадцать нативных LLM с помощью легковесного ResearchHarness. Текущие системы далеки от надежного повторного открытия: сильнейший автономный агент Claude Code набирает в среднем 21,5, сильнейшая LLM в ResearchHarness — Claude-Opus-4.7 — в среднем 20,7, а среднее значение для передовых LLM составляет лишь 26,5. Анализ ошибок показывает, что неудачи сосредоточены в несоответствии экспериментального протокола, несоответствии доказательств и отсутствии научной основы. ResearchClawBench обеспечивает воспроизводимый оценочный рубеж для измерения прогресса на пути к автономным научным исследованиям.

English

AI coding agents are increasingly used for scientific work, but their end-to-end autonomous research capability remains difficult to verify. We present ResearchClawBench, a benchmark for evaluating autonomous scientific research across 40 tasks from 10 scientific domains. Each task is grounded in a real published paper, provides related literature and raw data, and hides the target paper during evaluation. Expert-curated multimodal rubrics decompose the target scientific artifacts into weighted criteria, enabling evaluation of target-paper-level re-discovery while leaving room for new discovery. We evaluate seven autonomous research (auto-research) agents under a unified protocol and seventeen native LLMs through the lightweight ResearchHarness. Current systems remain far from reliable re-discovery: the strongest autonomous agent, Claude Code, averages 21.5, and the strongest ResearchHarness LLM, Claude-Opus-4.7, averages 20.7, with an LLM frontier mean of only 26.5. Error analysis shows that failures concentrate in experimental protocol mismatch, evidence mismatch, and missing scientific core. ResearchClawBench provides a reproducible evaluation frontier for measuring progress toward autonomous scientific research.