Curie : Vers une Expérimentation Scientifique Rigoureuse et Automatisée avec des Agents d'IA
Curie: Toward Rigorous and Automated Scientific Experimentation with AI Agents
February 22, 2025
Auteurs: Patrick Tser Jern Kon, Jiachen Liu, Qiuyi Ding, Yiming Qiu, Zhenning Yang, Yibo Huang, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Ang Chen
cs.AI
Résumé
L'expérimentation scientifique, pierre angulaire du progrès humain, exige de la rigueur en termes de fiabilité, de contrôle méthodique et d'interprétabilité pour produire des résultats significatifs. Malgré les capacités croissantes des grands modèles de langage (GML) à automatiser différents aspects du processus scientifique, automatiser une expérimentation rigoureuse reste un défi majeur. Pour combler cette lacune, nous proposons Curie, un cadre d'agent IA conçu pour intégrer la rigueur dans le processus d'expérimentation à travers trois composants clés : un module de rigueur intra-agent pour améliorer la fiabilité, un module de rigueur inter-agent pour maintenir le contrôle méthodique, et un module de connaissance expérimentale pour améliorer l'interprétabilité. Pour évaluer Curie, nous concevons un nouvel ensemble de tests expérimentaux composé de 46 questions dans quatre domaines de l'informatique, issues de travaux de recherche influents et de projets open source largement adoptés. Comparé au meilleur résultat de base testé, nous obtenons une amélioration de 3,4 fois dans la réponse correcte aux questions expérimentales. Curie est disponible en open source sur https://github.com/Just-Curieous/Curie.
English
Scientific experimentation, a cornerstone of human progress, demands rigor in
reliability, methodical control, and interpretability to yield meaningful
results. Despite the growing capabilities of large language models (LLMs) in
automating different aspects of the scientific process, automating rigorous
experimentation remains a significant challenge. To address this gap, we
propose Curie, an AI agent framework designed to embed rigor into the
experimentation process through three key components: an intra-agent rigor
module to enhance reliability, an inter-agent rigor module to maintain
methodical control, and an experiment knowledge module to enhance
interpretability. To evaluate Curie, we design a novel experimental benchmark
composed of 46 questions across four computer science domains, derived from
influential research papers, and widely adopted open-source projects. Compared
to the strongest baseline tested, we achieve a 3.4times improvement in
correctly answering experimental questions.Curie is open-sourced at
https://github.com/Just-Curieous/Curie.Summary
AI-Generated Summary