ChatPaper.aiChatPaper

FIRE-Bench: Оценка агентов на основе переоткрытия научных знаний

FIRE-Bench: Evaluating Agents on the Rediscovery of Scientific Insights

February 2, 2026
Авторы: Zhen Wang, Fan Bai, Zhongyan Luo, Jinyan Su, Kaiser Sun, Xinle Yu, Jieyuan Liu, Kun Zhou, Claire Cardie, Mark Dredze, Eric P. Xing, Zhiting Hu
cs.AI

Аннотация

Автономные агенты на основе больших языковых моделей (LLM) обещают ускорить научные открытия от начала до конца, однако строгая оценка их способности к верифицируемым открытиям остается ключевой проблемой. Существующие бенчмарки сталкиваются с компромиссом: они либо сильно полагаются на оценку LLM-как-судьи автоматически генерируемых научных результатов, либо оптимизируют удобные, но изолированные метрики производительности, которые служат грубыми прокси для научного инсайта. Чтобы устранить этот пробел, мы представляем FIRE-Bench (Full-cycle Insight Rediscovery Evaluation) — бенчмарк, который оценивает агентов через повторное открытие установленных результатов из недавних высокоэффективных исследований в области машинного обучения. Агентам предоставляется лишь общий исследовательский вопрос, извлеченный из опубликованной верифицированной работы, и они должны автономно исследовать идеи, проектировать эксперименты, реализовывать код, выполнять свои планы и делать выводы, подкрепленные эмпирическими данными. Мы оцениваем ряд современных агентов с передовыми LLM, такими как GPT-5, на FIRE-Bench. Наши результаты показывают, что полный цикл научного исследования остается сложной задачей для современных агентских систем: даже самые мощные агенты демонстрируют ограниченный успех в повторном открытии (<50 F1), имеют высокую дисперсию между запусками и проявляют повторяющиеся ошибки в проектировании экспериментов, их выполнении и доказательном рассуждении. FIRE-Bench предоставляет строгую и диагностическую основу для измерения прогресса в направлении надежного научного открытия, управляемого агентами.
English
Autonomous agents powered by large language models (LLMs) promise to accelerate scientific discovery end-to-end, but rigorously evaluating their capacity for verifiable discovery remains a central challenge. Existing benchmarks face a trade-off: they either heavily rely on LLM-as-judge evaluations of automatically generated research outputs or optimize convenient yet isolated performance metrics that provide coarse proxies for scientific insight. To address this gap, we introduce FIRE-Bench (Full-cycle Insight Rediscovery Evaluation), a benchmark that evaluates agents through the rediscovery of established findings from recent, high-impact machine learning research. Agents are given only a high-level research question extracted from a published, verified study and must autonomously explore ideas, design experiments, implement code, execute their plans, and derive conclusions supported by empirical evidence. We evaluate a range of state-of-the-art agents with frontier LLMs backbones like gpt-5 on FIRE-Bench. Our results show that full-cycle scientific research remains challenging for current agent systems: even the strongest agents achieve limited rediscovery success (<50 F1), exhibit high variance across runs, and display recurring failure modes in experimental design, execution, and evidence-based reasoning. FIRE-Bench provides a rigorous and diagnostic framework for measuring progress toward reliable agent-driven scientific discovery.
PDF41February 5, 2026