SafeScientist: Hin zu risikobewussten wissenschaftlichen Entdeckungen durch LLM-Agenten
SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents
May 29, 2025
Autoren: Kunlun Zhu, Jiaxun Zhang, Ziheng Qi, Nuoxing Shang, Zijia Liu, Peixuan Han, Yue Su, Haofei Yu, Jiaxuan You
cs.AI
Zusammenfassung
Jüngste Fortschritte bei Agenten für große Sprachmodelle (LLMs) haben die Automatisierung wissenschaftlicher Entdeckungen erheblich beschleunigt, gleichzeitig jedoch kritische ethische und Sicherheitsbedenken aufgeworfen. Um diese Herausforderungen systematisch anzugehen, stellen wir SafeScientist vor, ein innovatives KI-Wissenschaftler-Framework, das explizit darauf ausgelegt ist, Sicherheit und ethische Verantwortung in der KI-gestützten wissenschaftlichen Forschung zu stärken. SafeScientist lehnt proaktiv ethisch unangemessene oder hochriskante Aufgaben ab und betont Sicherheit rigoros während des gesamten Forschungsprozesses. Um eine umfassende Sicherheitsüberwachung zu gewährleisten, integrieren wir mehrere Abwehrmechanismen, darunter Prompt-Überwachung, Agenten-Kollaborations-Überwachung, Werkzeugnutzungs-Überwachung und eine ethische Prüfkomponente. Ergänzend zu SafeScientist schlagen wir SciSafetyBench vor, einen neuartigen Benchmark, der speziell entwickelt wurde, um KI-Sicherheit in wissenschaftlichen Kontexten zu bewerten. Dieser umfasst 240 hochriskante wissenschaftliche Aufgaben aus 6 Domänen sowie 30 speziell entwickelte wissenschaftliche Werkzeuge und 120 werkzeugbezogene Risikoaufgaben. Umfangreiche Experimente zeigen, dass SafeScientist die Sicherheitsleistung im Vergleich zu traditionellen KI-Wissenschaftler-Frameworks um 35\% verbessert, ohne die Qualität der wissenschaftlichen Ergebnisse zu beeinträchtigen. Zusätzlich validieren wir die Robustheit unserer Sicherheitspipeline rigoros gegen diverse Methoden für adversariale Angriffe, was die Wirksamkeit unseres integrierten Ansatzes weiter bestätigt. Der Code und die Daten werden unter https://github.com/ulab-uiuc/SafeScientist verfügbar sein. \red{Warnung: Dieses Papier enthält Beispieldaten, die anstößig oder schädlich sein könnten.}
English
Recent advancements in large language model (LLM) agents have significantly
accelerated scientific discovery automation, yet concurrently raised critical
ethical and safety concerns. To systematically address these challenges, we
introduce SafeScientist, an innovative AI scientist framework
explicitly designed to enhance safety and ethical responsibility in AI-driven
scientific exploration. SafeScientist proactively refuses ethically
inappropriate or high-risk tasks and rigorously emphasizes safety throughout
the research process. To achieve comprehensive safety oversight, we integrate
multiple defensive mechanisms, including prompt monitoring, agent-collaboration
monitoring, tool-use monitoring, and an ethical reviewer component.
Complementing SafeScientist, we propose SciSafetyBench, a novel
benchmark specifically designed to evaluate AI safety in scientific contexts,
comprising 240 high-risk scientific tasks across 6 domains, alongside 30
specially designed scientific tools and 120 tool-related risk tasks. Extensive
experiments demonstrate that SafeScientist significantly improves safety
performance by 35\% compared to traditional AI scientist frameworks, without
compromising scientific output quality. Additionally, we rigorously validate
the robustness of our safety pipeline against diverse adversarial attack
methods, further confirming the effectiveness of our integrated approach. The
code and data will be available at https://github.com/ulab-uiuc/SafeScientist.
red{Warning: this paper contains example data that may be offensive
or harmful.}Summary
AI-Generated Summary