Curie: Naar Rigoureuze en Geautomatiseerde Wetenschappelijke Experimentatie met AI-Agenten
Curie: Toward Rigorous and Automated Scientific Experimentation with AI Agents
February 22, 2025
Auteurs: Patrick Tser Jern Kon, Jiachen Liu, Qiuyi Ding, Yiming Qiu, Zhenning Yang, Yibo Huang, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Ang Chen
cs.AI
Samenvatting
Wetenschappelijk experimenteren, een hoeksteen van menselijke vooruitgang, vereist strengheid in betrouwbaarheid, methodische controle en interpreteerbaarheid om zinvolle resultaten op te leveren. Ondanks de groeiende mogelijkheden van grote taalmodelen (LLM's) bij het automatiseren van verschillende aspecten van het wetenschappelijke proces, blijft het automatiseren van rigoureus experimenteren een aanzienlijke uitdaging. Om deze kloof te overbruggen, stellen we Curie voor, een AI-agentframework ontworpen om strengheid in het experimenteerproces in te bedden via drie belangrijke componenten: een intra-agent strengheidsmodule om de betrouwbaarheid te verbeteren, een inter-agent strengheidsmodule om methodische controle te behouden, en een experimentkennismodule om de interpreteerbaarheid te vergroten. Om Curie te evalueren, hebben we een nieuwe experimentele benchmark ontworpen bestaande uit 46 vragen verdeeld over vier computerwetenschappelijke domeinen, afgeleid van invloedrijke onderzoeksartikelen en veelgebruikte open-sourceprojecten. Vergeleken met de sterkste geteste baseline behalen we een 3,4 keer verbetering in het correct beantwoorden van experimentele vragen. Curie is open-source beschikbaar op https://github.com/Just-Curieous/Curie.
English
Scientific experimentation, a cornerstone of human progress, demands rigor in
reliability, methodical control, and interpretability to yield meaningful
results. Despite the growing capabilities of large language models (LLMs) in
automating different aspects of the scientific process, automating rigorous
experimentation remains a significant challenge. To address this gap, we
propose Curie, an AI agent framework designed to embed rigor into the
experimentation process through three key components: an intra-agent rigor
module to enhance reliability, an inter-agent rigor module to maintain
methodical control, and an experiment knowledge module to enhance
interpretability. To evaluate Curie, we design a novel experimental benchmark
composed of 46 questions across four computer science domains, derived from
influential research papers, and widely adopted open-source projects. Compared
to the strongest baseline tested, we achieve a 3.4times improvement in
correctly answering experimental questions.Curie is open-sourced at
https://github.com/Just-Curieous/Curie.Summary
AI-Generated Summary