Curie: Verso un'esperimentazione scientifica rigorosa e automatizzata con agenti di intelligenza artificiale
Curie: Toward Rigorous and Automated Scientific Experimentation with AI Agents
February 22, 2025
Autori: Patrick Tser Jern Kon, Jiachen Liu, Qiuyi Ding, Yiming Qiu, Zhenning Yang, Yibo Huang, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Ang Chen
cs.AI
Abstract
L'esperimentazione scientifica, pietra angolare del progresso umano, richiede rigore nella affidabilità, controllo metodico e interpretabilità per ottenere risultati significativi. Nonostante le crescenti capacità dei grandi modelli linguistici (LLM) nell'automatizzare diversi aspetti del processo scientifico, automatizzare l'esperimentazione rigorosa rimane una sfida significativa. Per affrontare questa lacuna, proponiamo Curie, un framework di agenti di intelligenza artificiale progettato per incorporare il rigore nel processo sperimentale attraverso tre componenti chiave: un modulo di rigore intra-agente per migliorare l'affidabilità, un modulo di rigore inter-agente per mantenere il controllo metodico e un modulo di conoscenza sperimentale per migliorare l'interpretabilità. Per valutare Curie, progettiamo un nuovo benchmark sperimentale composto da 46 domande in quattro domini dell'informatica, derivate da influenti articoli di ricerca e ampiamente adottati progetti open-source. Rispetto alla migliore base di confronto testata, otteniamo un miglioramento del 3,4 volte nel rispondere correttamente alle domande sperimentali. Curie è open-source su https://github.com/Just-Curieous/Curie.
English
Scientific experimentation, a cornerstone of human progress, demands rigor in
reliability, methodical control, and interpretability to yield meaningful
results. Despite the growing capabilities of large language models (LLMs) in
automating different aspects of the scientific process, automating rigorous
experimentation remains a significant challenge. To address this gap, we
propose Curie, an AI agent framework designed to embed rigor into the
experimentation process through three key components: an intra-agent rigor
module to enhance reliability, an inter-agent rigor module to maintain
methodical control, and an experiment knowledge module to enhance
interpretability. To evaluate Curie, we design a novel experimental benchmark
composed of 46 questions across four computer science domains, derived from
influential research papers, and widely adopted open-source projects. Compared
to the strongest baseline tested, we achieve a 3.4times improvement in
correctly answering experimental questions.Curie is open-sourced at
https://github.com/Just-Curieous/Curie.Summary
AI-Generated Summary