ChatPaper.aiChatPaper

Curie: Rumo à Experimentação Científica Rigorosa e Automatizada com Agentes de IA

Curie: Toward Rigorous and Automated Scientific Experimentation with AI Agents

February 22, 2025
Autores: Patrick Tser Jern Kon, Jiachen Liu, Qiuyi Ding, Yiming Qiu, Zhenning Yang, Yibo Huang, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Ang Chen
cs.AI

Resumo

A experimentação científica, um pilar fundamental do progresso humano, exige rigor em confiabilidade, controle metodológico e interpretabilidade para gerar resultados significativos. Apesar do crescente potencial dos grandes modelos de linguagem (LLMs) em automatizar diferentes aspectos do processo científico, a automação de experimentos rigorosos continua sendo um desafio significativo. Para abordar essa lacuna, propomos o Curie, um framework de agente de IA projetado para incorporar rigor ao processo de experimentação por meio de três componentes principais: um módulo de rigor intra-agente para aprimorar a confiabilidade, um módulo de rigor inter-agente para manter o controle metodológico e um módulo de conhecimento experimental para melhorar a interpretabilidade. Para avaliar o Curie, desenvolvemos um novo benchmark experimental composto por 46 questões em quatro domínios da ciência da computação, derivadas de artigos de pesquisa influentes e projetos de código aberto amplamente adotados. Em comparação com a linha de base mais forte testada, alcançamos uma melhoria de 3,4 vezes na resposta correta às questões experimentais. O Curie está disponível como código aberto em https://github.com/Just-Curieous/Curie.
English
Scientific experimentation, a cornerstone of human progress, demands rigor in reliability, methodical control, and interpretability to yield meaningful results. Despite the growing capabilities of large language models (LLMs) in automating different aspects of the scientific process, automating rigorous experimentation remains a significant challenge. To address this gap, we propose Curie, an AI agent framework designed to embed rigor into the experimentation process through three key components: an intra-agent rigor module to enhance reliability, an inter-agent rigor module to maintain methodical control, and an experiment knowledge module to enhance interpretability. To evaluate Curie, we design a novel experimental benchmark composed of 46 questions across four computer science domains, derived from influential research papers, and widely adopted open-source projects. Compared to the strongest baseline tested, we achieve a 3.4times improvement in correctly answering experimental questions.Curie is open-sourced at https://github.com/Just-Curieous/Curie.

Summary

AI-Generated Summary

PDF195February 26, 2025