ChatPaper.aiChatPaper

FIRE-Bench: Bewertung von Agenten bei der Wiederentdeckung wissenschaftlicher Erkenntnisse

FIRE-Bench: Evaluating Agents on the Rediscovery of Scientific Insights

February 2, 2026
papers.authors: Zhen Wang, Fan Bai, Zhongyan Luo, Jinyan Su, Kaiser Sun, Xinle Yu, Jieyuan Liu, Kun Zhou, Claire Cardie, Mark Dredze, Eric P. Xing, Zhiting Hu
cs.AI

papers.abstract

Autonome Agenten, die auf großen Sprachmodellen (LLMs) basieren, versprechen eine End-to-End-Beschleunigung wissenschaftlicher Entdeckungen, doch die rigorose Bewertung ihrer Fähigkeit zu überprüfbaren Entdeckungen bleibt eine zentrale Herausforderung. Bestehende Benchmarks sehen sich einem Zielkonflikt gegenüber: Sie verlassen sich entweder stark auf LLM-als-Gutachter-Bewertungen automatisch generierter Forschungsergebnisse oder optimieren bequeme, aber isolierte Leistungskennzahlen, die nur grobe Stellvertreter für wissenschaftliche Erkenntnisse darstellen. Um diese Lücke zu schließen, führen wir FIRE-Bench (Full-cycle Insight Rediscovery Evaluation) ein, einen Benchmark, der Agenten durch die Wiederentdeckung etablierter Erkenntnisse aus aktueller, einflussreicher Machine-Learning-Forschung bewertet. Den Agenten wird lediglich eine übergeordnete Forschungsfrage aus einer veröffentlichten, verifizierten Studie vorgegeben, und sie müssen autonom Ideen explorieren, Experimente entwerfen, Code implementieren, ihre Pläne ausführen und durch empirische Evidenz gestützte Schlussfolgerungen ziehen. Wir evaluieren eine Reihe modernster Agenten mit fortschrittlichen LLM-Architekturen wie gpt-5 auf FIRE-Bench. Unsere Ergebnisse zeigen, dass vollständige wissenschaftliche Forschungszyklen für aktuelle Agentensysteme nach wie vor herausfordernd sind: Selbst die leistungsstärksten Agenten erzielen nur begrenzte Wiederentdeckungserfolge (<50 F1), weisen eine hohe Varianz zwischen Durchläufen auf und zeigen wiederkehrende Fehlermuster im experimentellen Design, der Ausführung und der evidenzbasierten Argumentation. FIRE-Bench bietet einen rigorosen und diagnostischen Rahmen, um Fortschritte in Richtung zuverlässiger, agentengesteuerter wissenschaftlicher Entdeckungen zu messen.
English
Autonomous agents powered by large language models (LLMs) promise to accelerate scientific discovery end-to-end, but rigorously evaluating their capacity for verifiable discovery remains a central challenge. Existing benchmarks face a trade-off: they either heavily rely on LLM-as-judge evaluations of automatically generated research outputs or optimize convenient yet isolated performance metrics that provide coarse proxies for scientific insight. To address this gap, we introduce FIRE-Bench (Full-cycle Insight Rediscovery Evaluation), a benchmark that evaluates agents through the rediscovery of established findings from recent, high-impact machine learning research. Agents are given only a high-level research question extracted from a published, verified study and must autonomously explore ideas, design experiments, implement code, execute their plans, and derive conclusions supported by empirical evidence. We evaluate a range of state-of-the-art agents with frontier LLMs backbones like gpt-5 on FIRE-Bench. Our results show that full-cycle scientific research remains challenging for current agent systems: even the strongest agents achieve limited rediscovery success (<50 F1), exhibit high variance across runs, and display recurring failure modes in experimental design, execution, and evidence-based reasoning. FIRE-Bench provides a rigorous and diagnostic framework for measuring progress toward reliable agent-driven scientific discovery.
PDF41February 5, 2026