SafeScientist : Vers des découvertes scientifiques tenant compte des risques par des agents LLM

papers.abstract

Les récents progrès des agents de modèles de langage de grande taille (LLM) ont considérablement accéléré l'automatisation des découvertes scientifiques, tout en soulevant simultanément des préoccupations éthiques et de sécurité critiques. Pour relever systématiquement ces défis, nous présentons SafeScientist, un cadre innovant de scientifique IA spécifiquement conçu pour renforcer la sécurité et la responsabilité éthique dans l'exploration scientifique pilotée par l'IA. SafeScientist refuse de manière proactive les tâches éthiquement inappropriées ou à haut risque et met rigoureusement l'accent sur la sécurité tout au long du processus de recherche. Pour assurer une supervision complète de la sécurité, nous intégrons plusieurs mécanismes de défense, notamment la surveillance des invites, la surveillance de la collaboration entre agents, la surveillance de l'utilisation des outils et un composant d'examen éthique. En complément de SafeScientist, nous proposons SciSafetyBench, un nouveau benchmark spécialement conçu pour évaluer la sécurité de l'IA dans des contextes scientifiques, comprenant 240 tâches scientifiques à haut risque réparties dans 6 domaines, ainsi que 30 outils scientifiques spécialement conçus et 120 tâches liées aux risques des outils. Des expériences approfondies démontrent que SafeScientist améliore significativement les performances de sécurité de 35 % par rapport aux cadres traditionnels de scientifiques IA, sans compromettre la qualité des résultats scientifiques. De plus, nous validons rigoureusement la robustesse de notre pipeline de sécurité contre diverses méthodes d'attaque adverses, confirmant ainsi l'efficacité de notre approche intégrée. Le code et les données seront disponibles à l'adresse https://github.com/ulab-uiuc/SafeScientist. \red{Avertissement : cet article contient des exemples de données qui peuvent être offensants ou nuisibles.}

English

Recent advancements in large language model (LLM) agents have significantly accelerated scientific discovery automation, yet concurrently raised critical ethical and safety concerns. To systematically address these challenges, we introduce SafeScientist, an innovative AI scientist framework explicitly designed to enhance safety and ethical responsibility in AI-driven scientific exploration. SafeScientist proactively refuses ethically inappropriate or high-risk tasks and rigorously emphasizes safety throughout the research process. To achieve comprehensive safety oversight, we integrate multiple defensive mechanisms, including prompt monitoring, agent-collaboration monitoring, tool-use monitoring, and an ethical reviewer component. Complementing SafeScientist, we propose SciSafetyBench, a novel benchmark specifically designed to evaluate AI safety in scientific contexts, comprising 240 high-risk scientific tasks across 6 domains, alongside 30 specially designed scientific tools and 120 tool-related risk tasks. Extensive experiments demonstrate that SafeScientist significantly improves safety performance by 35\% compared to traditional AI scientist frameworks, without compromising scientific output quality. Additionally, we rigorously validate the robustness of our safety pipeline against diverse adversarial attack methods, further confirming the effectiveness of our integrated approach. The code and data will be available at https://github.com/ulab-uiuc/SafeScientist. red{Warning: this paper contains example data that may be offensive or harmful.}

SafeScientist : Vers des découvertes scientifiques tenant compte des risques par des agents LLM

SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents

papers.abstract

Support