SafeScientist : Vers des découvertes scientifiques tenant compte des risques par des agents LLM
SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents
May 29, 2025
Auteurs: Kunlun Zhu, Jiaxun Zhang, Ziheng Qi, Nuoxing Shang, Zijia Liu, Peixuan Han, Yue Su, Haofei Yu, Jiaxuan You
cs.AI
Résumé
Les récents progrès des agents de modèles de langage de grande taille (LLM) ont considérablement accéléré l'automatisation des découvertes scientifiques, tout en soulevant simultanément des préoccupations éthiques et de sécurité critiques. Pour relever systématiquement ces défis, nous présentons SafeScientist, un cadre innovant de scientifique IA spécifiquement conçu pour renforcer la sécurité et la responsabilité éthique dans l'exploration scientifique pilotée par l'IA. SafeScientist refuse de manière proactive les tâches éthiquement inappropriées ou à haut risque et met rigoureusement l'accent sur la sécurité tout au long du processus de recherche. Pour assurer une supervision complète de la sécurité, nous intégrons plusieurs mécanismes de défense, notamment la surveillance des invites, la surveillance de la collaboration entre agents, la surveillance de l'utilisation des outils et un composant d'examen éthique. En complément de SafeScientist, nous proposons SciSafetyBench, un nouveau benchmark spécialement conçu pour évaluer la sécurité de l'IA dans des contextes scientifiques, comprenant 240 tâches scientifiques à haut risque réparties dans 6 domaines, ainsi que 30 outils scientifiques spécialement conçus et 120 tâches liées aux risques des outils. Des expériences approfondies démontrent que SafeScientist améliore significativement les performances de sécurité de 35 % par rapport aux cadres traditionnels de scientifiques IA, sans compromettre la qualité des résultats scientifiques. De plus, nous validons rigoureusement la robustesse de notre pipeline de sécurité contre diverses méthodes d'attaque adverses, confirmant ainsi l'efficacité de notre approche intégrée. Le code et les données seront disponibles à l'adresse https://github.com/ulab-uiuc/SafeScientist. \red{Avertissement : cet article contient des exemples de données qui peuvent être offensants ou nuisibles.}
English
Recent advancements in large language model (LLM) agents have significantly
accelerated scientific discovery automation, yet concurrently raised critical
ethical and safety concerns. To systematically address these challenges, we
introduce SafeScientist, an innovative AI scientist framework
explicitly designed to enhance safety and ethical responsibility in AI-driven
scientific exploration. SafeScientist proactively refuses ethically
inappropriate or high-risk tasks and rigorously emphasizes safety throughout
the research process. To achieve comprehensive safety oversight, we integrate
multiple defensive mechanisms, including prompt monitoring, agent-collaboration
monitoring, tool-use monitoring, and an ethical reviewer component.
Complementing SafeScientist, we propose SciSafetyBench, a novel
benchmark specifically designed to evaluate AI safety in scientific contexts,
comprising 240 high-risk scientific tasks across 6 domains, alongside 30
specially designed scientific tools and 120 tool-related risk tasks. Extensive
experiments demonstrate that SafeScientist significantly improves safety
performance by 35\% compared to traditional AI scientist frameworks, without
compromising scientific output quality. Additionally, we rigorously validate
the robustness of our safety pipeline against diverse adversarial attack
methods, further confirming the effectiveness of our integrated approach. The
code and data will be available at https://github.com/ulab-uiuc/SafeScientist.
red{Warning: this paper contains example data that may be offensive
or harmful.}Summary
AI-Generated Summary