FIRE-Bench: 과학적 통찰력 재발견에 대한 에이전트 평가
FIRE-Bench: Evaluating Agents on the Rediscovery of Scientific Insights
February 2, 2026
저자: Zhen Wang, Fan Bai, Zhongyan Luo, Jinyan Su, Kaiser Sun, Xinle Yu, Jieyuan Liu, Kun Zhou, Claire Cardie, Mark Dredze, Eric P. Xing, Zhiting Hu
cs.AI
초록
대규모 언어 모델(LLM)으로 구동되는 자율 에이전트가 과학적 발견을 종단간 가속화할 것이라 기대되지만, 검증 가능한 발견 능력을 엄격하게 평가하는 것은 여전히 핵심 과제로 남아 있습니다. 기존 벤치마크는 딜레마에 직면해 있습니다: 자동 생성된 연구 결과물에 대한 LLM-판독기 평가에 크게 의존하거나, 과학적 통찰력을 대략적으로 대변하는 편리하지만 고립된 성능 지표에 최적화되어 있습니다. 이러한 격차를 해결하기 위해 우리는 최근의 고성능 머신러닝 연구에서 확립된 발견 결과를 재발견하는 방식으로 에이전트를 평가하는 벤치마크인 FIRE-Bench(전주기 통찰 재발견 평가)를 소개합니다. 에이전트는 검증된 출판 연구에서 추출한 높은 수준의 연구 질문만을 제공받고, 아이디어를 자율적으로 탐구하고 실험을 설계하며 코드를 구현하고 계획을 실행하며 실증적 증거에 기반한 결론을 도출해야 합니다. 우리는 gpt-5와 같은 최첨단 LLM 기반의 다양한 에이전트를 FIRE-Bench에서 평가합니다. 우리의 결과는 전주기 과학 연구가 현재 에이전트 시스템에게 여전히 어려운 과제임을 보여줍니다: 가장 강력한 에이전트조차도 제한된 재발견 성공률(<50 F1)을 보이며, 실행 간 높은 변동성을 나타내고, 실험 설계, 실행 및 증거 기반 추론에서 반복적인 실패 패턴을 드러냅니다. FIRE-Bench는 신뢰할 수 있는 에이전트 주도 과학적 발견을 향한 진전을 측정하기 위한 엄격하고 진단적인 프레임워크를 제공합니다.
English
Autonomous agents powered by large language models (LLMs) promise to accelerate scientific discovery end-to-end, but rigorously evaluating their capacity for verifiable discovery remains a central challenge. Existing benchmarks face a trade-off: they either heavily rely on LLM-as-judge evaluations of automatically generated research outputs or optimize convenient yet isolated performance metrics that provide coarse proxies for scientific insight. To address this gap, we introduce FIRE-Bench (Full-cycle Insight Rediscovery Evaluation), a benchmark that evaluates agents through the rediscovery of established findings from recent, high-impact machine learning research. Agents are given only a high-level research question extracted from a published, verified study and must autonomously explore ideas, design experiments, implement code, execute their plans, and derive conclusions supported by empirical evidence. We evaluate a range of state-of-the-art agents with frontier LLMs backbones like gpt-5 on FIRE-Bench. Our results show that full-cycle scientific research remains challenging for current agent systems: even the strongest agents achieve limited rediscovery success (<50 F1), exhibit high variance across runs, and display recurring failure modes in experimental design, execution, and evidence-based reasoning. FIRE-Bench provides a rigorous and diagnostic framework for measuring progress toward reliable agent-driven scientific discovery.