ChatPaper.aiChatPaper

Curie: Hacia la Experimentación Científica Rigurosa y Automatizada con Agentes de IA

Curie: Toward Rigorous and Automated Scientific Experimentation with AI Agents

February 22, 2025
Autores: Patrick Tser Jern Kon, Jiachen Liu, Qiuyi Ding, Yiming Qiu, Zhenning Yang, Yibo Huang, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Ang Chen
cs.AI

Resumen

La experimentación científica, un pilar fundamental del progreso humano, exige rigor en la fiabilidad, el control metodológico y la interpretabilidad para obtener resultados significativos. A pesar de las crecientes capacidades de los modelos de lenguaje de gran escala (LLMs) para automatizar diversos aspectos del proceso científico, automatizar la experimentación rigurosa sigue siendo un desafío importante. Para abordar esta brecha, proponemos Curie, un marco de agente de IA diseñado para incorporar rigor en el proceso de experimentación a través de tres componentes clave: un módulo de rigor intra-agente para mejorar la fiabilidad, un módulo de rigor inter-agente para mantener el control metodológico y un módulo de conocimiento experimental para mejorar la interpretabilidad. Para evaluar Curie, diseñamos un nuevo punto de referencia experimental compuesto por 46 preguntas en cuatro dominios de la informática, derivadas de artículos de investigación influyentes y proyectos de código abierto ampliamente adoptados. En comparación con la línea base más sólida probada, logramos una mejora de 3.4 veces en la respuesta correcta a las preguntas experimentales. Curie es de código abierto en https://github.com/Just-Curieous/Curie.
English
Scientific experimentation, a cornerstone of human progress, demands rigor in reliability, methodical control, and interpretability to yield meaningful results. Despite the growing capabilities of large language models (LLMs) in automating different aspects of the scientific process, automating rigorous experimentation remains a significant challenge. To address this gap, we propose Curie, an AI agent framework designed to embed rigor into the experimentation process through three key components: an intra-agent rigor module to enhance reliability, an inter-agent rigor module to maintain methodical control, and an experiment knowledge module to enhance interpretability. To evaluate Curie, we design a novel experimental benchmark composed of 46 questions across four computer science domains, derived from influential research papers, and widely adopted open-source projects. Compared to the strongest baseline tested, we achieve a 3.4times improvement in correctly answering experimental questions.Curie is open-sourced at https://github.com/Just-Curieous/Curie.

Summary

AI-Generated Summary

PDF195February 26, 2025