ChatPaper.aiChatPaper

Curie: Auf dem Weg zu rigoroser und automatisierter wissenschaftlicher Experimentation mit KI-Agenten

Curie: Toward Rigorous and Automated Scientific Experimentation with AI Agents

February 22, 2025
Autoren: Patrick Tser Jern Kon, Jiachen Liu, Qiuyi Ding, Yiming Qiu, Zhenning Yang, Yibo Huang, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Ang Chen
cs.AI

Zusammenfassung

Wissenschaftliche Experimente, ein Eckpfeiler des menschlichen Fortschritts, erfordern Strenge in Bezug auf Zuverlässigkeit, methodische Kontrolle und Interpretierbarkeit, um aussagekräftige Ergebnisse zu erzielen. Trotz der zunehmenden Fähigkeiten großer Sprachmodelle (LLMs) bei der Automatisierung verschiedener Aspekte des wissenschaftlichen Prozesses bleibt die Automatisierung rigoroser Experimente eine erhebliche Herausforderung. Um diese Lücke zu schließen, schlagen wir Curie vor, ein KI-Agenten-Framework, das darauf abzielt, Strenge in den Experimentierprozess zu integrieren, und zwar durch drei Schlüsselkomponenten: ein Intra-Agenten-Rigor-Modul zur Verbesserung der Zuverlässigkeit, ein Inter-Agenten-Rigor-Modul zur Aufrechterhaltung methodischer Kontrolle und ein Experimentwissens-Modul zur Verbesserung der Interpretierbarkeit. Um Curie zu bewerten, entwerfen wir einen neuartigen experimentellen Benchmark, der aus 46 Fragen in vier Informatikbereichen besteht, die aus einflussreichen Forschungsarbeiten und weit verbreiteten Open-Source-Projekten abgeleitet sind. Im Vergleich zum stärksten getesteten Baseline-Modell erreichen wir eine 3,4-fache Verbesserung bei der korrekten Beantwortung experimenteller Fragen. Curie ist unter https://github.com/Just-Curieous/Curie quelloffen verfügbar.
English
Scientific experimentation, a cornerstone of human progress, demands rigor in reliability, methodical control, and interpretability to yield meaningful results. Despite the growing capabilities of large language models (LLMs) in automating different aspects of the scientific process, automating rigorous experimentation remains a significant challenge. To address this gap, we propose Curie, an AI agent framework designed to embed rigor into the experimentation process through three key components: an intra-agent rigor module to enhance reliability, an inter-agent rigor module to maintain methodical control, and an experiment knowledge module to enhance interpretability. To evaluate Curie, we design a novel experimental benchmark composed of 46 questions across four computer science domains, derived from influential research papers, and widely adopted open-source projects. Compared to the strongest baseline tested, we achieve a 3.4times improvement in correctly answering experimental questions.Curie is open-sourced at https://github.com/Just-Curieous/Curie.

Summary

AI-Generated Summary

PDF195February 26, 2025