SafeScientist: Naar risicobewuste wetenschappelijke ontdekkingen door LLM-agenten

Samenvatting

Recente vooruitgang in grote taalmodel (LLM) agents heeft de automatisering van wetenschappelijke ontdekkingen aanzienlijk versneld, maar tegelijkertijd ook kritische ethische en veiligheidskwesties opgeworpen. Om deze uitdagingen systematisch aan te pakken, introduceren we SafeScientist, een innovatief AI-wetenschapper framework dat expliciet is ontworpen om veiligheid en ethische verantwoordelijkheid te vergroten in AI-gedreven wetenschappelijke exploratie. SafeScientist weigert proactief ethisch ongepaste of hoogrisicotaken en benadrukt strikt veiligheid gedurende het onderzoeksproces. Om een uitgebreid veiligheidstoezicht te bereiken, integreren we meerdere defensiemechanismen, waaronder promptmonitoring, agent-samenwerkingsmonitoring, toolgebruiksmonitoring en een ethische beoordelingscomponent. Als aanvulling op SafeScientist stellen we SciSafetyBench voor, een nieuwe benchmark die specifiek is ontworpen om AI-veiligheid in wetenschappelijke contexten te evalueren, bestaande uit 240 hoogrisicowetenschappelijke taken verspreid over 6 domeinen, naast 30 speciaal ontworpen wetenschappelijke tools en 120 toolgerelateerde risicotaken. Uitgebreide experimenten tonen aan dat SafeScientist de veiligheidsprestaties met 35\% verbetert in vergelijking met traditionele AI-wetenschapper frameworks, zonder in te leveren op de kwaliteit van wetenschappelijke output. Daarnaast valideren we grondig de robuustheid van onze veiligheidspijplijn tegen diverse adversariële aanvalsmethoden, wat de effectiviteit van onze geïntegreerde aanpak verder bevestigt. De code en data zullen beschikbaar zijn op https://github.com/ulab-uiuc/SafeScientist. **Waarschuwing: dit artikel bevat voorbeeldgegevens die aanstootgevend of schadelijk kunnen zijn.**

English

Recent advancements in large language model (LLM) agents have significantly accelerated scientific discovery automation, yet concurrently raised critical ethical and safety concerns. To systematically address these challenges, we introduce SafeScientist, an innovative AI scientist framework explicitly designed to enhance safety and ethical responsibility in AI-driven scientific exploration. SafeScientist proactively refuses ethically inappropriate or high-risk tasks and rigorously emphasizes safety throughout the research process. To achieve comprehensive safety oversight, we integrate multiple defensive mechanisms, including prompt monitoring, agent-collaboration monitoring, tool-use monitoring, and an ethical reviewer component. Complementing SafeScientist, we propose SciSafetyBench, a novel benchmark specifically designed to evaluate AI safety in scientific contexts, comprising 240 high-risk scientific tasks across 6 domains, alongside 30 specially designed scientific tools and 120 tool-related risk tasks. Extensive experiments demonstrate that SafeScientist significantly improves safety performance by 35\% compared to traditional AI scientist frameworks, without compromising scientific output quality. Additionally, we rigorously validate the robustness of our safety pipeline against diverse adversarial attack methods, further confirming the effectiveness of our integrated approach. The code and data will be available at https://github.com/ulab-uiuc/SafeScientist. red{Warning: this paper contains example data that may be offensive or harmful.}

SafeScientist: Naar risicobewuste wetenschappelijke ontdekkingen door LLM-agenten

SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents

Samenvatting

Support