SafeScientist: Naar risicobewuste wetenschappelijke ontdekkingen door LLM-agenten
SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents
May 29, 2025
Auteurs: Kunlun Zhu, Jiaxun Zhang, Ziheng Qi, Nuoxing Shang, Zijia Liu, Peixuan Han, Yue Su, Haofei Yu, Jiaxuan You
cs.AI
Samenvatting
Recente vooruitgang in grote taalmodel (LLM) agents heeft de automatisering van wetenschappelijke ontdekkingen aanzienlijk versneld, maar tegelijkertijd ook kritische ethische en veiligheidskwesties opgeworpen. Om deze uitdagingen systematisch aan te pakken, introduceren we SafeScientist, een innovatief AI-wetenschapper framework dat expliciet is ontworpen om veiligheid en ethische verantwoordelijkheid te vergroten in AI-gedreven wetenschappelijke exploratie. SafeScientist weigert proactief ethisch ongepaste of hoogrisicotaken en benadrukt strikt veiligheid gedurende het onderzoeksproces. Om een uitgebreid veiligheidstoezicht te bereiken, integreren we meerdere defensiemechanismen, waaronder promptmonitoring, agent-samenwerkingsmonitoring, toolgebruiksmonitoring en een ethische beoordelingscomponent. Als aanvulling op SafeScientist stellen we SciSafetyBench voor, een nieuwe benchmark die specifiek is ontworpen om AI-veiligheid in wetenschappelijke contexten te evalueren, bestaande uit 240 hoogrisicowetenschappelijke taken verspreid over 6 domeinen, naast 30 speciaal ontworpen wetenschappelijke tools en 120 toolgerelateerde risicotaken. Uitgebreide experimenten tonen aan dat SafeScientist de veiligheidsprestaties met 35\% verbetert in vergelijking met traditionele AI-wetenschapper frameworks, zonder in te leveren op de kwaliteit van wetenschappelijke output. Daarnaast valideren we grondig de robuustheid van onze veiligheidspijplijn tegen diverse adversariële aanvalsmethoden, wat de effectiviteit van onze geïntegreerde aanpak verder bevestigt. De code en data zullen beschikbaar zijn op https://github.com/ulab-uiuc/SafeScientist. **Waarschuwing: dit artikel bevat voorbeeldgegevens die aanstootgevend of schadelijk kunnen zijn.**
English
Recent advancements in large language model (LLM) agents have significantly
accelerated scientific discovery automation, yet concurrently raised critical
ethical and safety concerns. To systematically address these challenges, we
introduce SafeScientist, an innovative AI scientist framework
explicitly designed to enhance safety and ethical responsibility in AI-driven
scientific exploration. SafeScientist proactively refuses ethically
inappropriate or high-risk tasks and rigorously emphasizes safety throughout
the research process. To achieve comprehensive safety oversight, we integrate
multiple defensive mechanisms, including prompt monitoring, agent-collaboration
monitoring, tool-use monitoring, and an ethical reviewer component.
Complementing SafeScientist, we propose SciSafetyBench, a novel
benchmark specifically designed to evaluate AI safety in scientific contexts,
comprising 240 high-risk scientific tasks across 6 domains, alongside 30
specially designed scientific tools and 120 tool-related risk tasks. Extensive
experiments demonstrate that SafeScientist significantly improves safety
performance by 35\% compared to traditional AI scientist frameworks, without
compromising scientific output quality. Additionally, we rigorously validate
the robustness of our safety pipeline against diverse adversarial attack
methods, further confirming the effectiveness of our integrated approach. The
code and data will be available at https://github.com/ulab-uiuc/SafeScientist.
red{Warning: this paper contains example data that may be offensive
or harmful.}