SafeScientist: Verso Scoperte Scientifiche Consapevoli del Rischio da parte di Agenti LLM
SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents
May 29, 2025
Autori: Kunlun Zhu, Jiaxun Zhang, Ziheng Qi, Nuoxing Shang, Zijia Liu, Peixuan Han, Yue Su, Haofei Yu, Jiaxuan You
cs.AI
Abstract
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno accelerato significativamente l'automazione della scoperta scientifica, sollevando al contempo preoccupazioni critiche in materia di etica e sicurezza. Per affrontare sistematicamente queste sfide, introduciamo SafeScientist, un innovativo framework di scienziato AI progettato specificamente per migliorare la sicurezza e la responsabilità etica nell'esplorazione scientifica guidata dall'IA. SafeScientist rifiuta proattivamente compiti eticamente inappropriati o ad alto rischio e pone un forte accento sulla sicurezza durante l'intero processo di ricerca. Per garantire una supervisione completa della sicurezza, integriamo molteplici meccanismi difensivi, tra cui il monitoraggio dei prompt, il monitoraggio della collaborazione tra agenti, il monitoraggio dell'uso degli strumenti e un componente di revisione etica. A complemento di SafeScientist, proponiamo SciSafetyBench, un nuovo benchmark progettato specificamente per valutare la sicurezza dell'IA in contesti scientifici, comprendente 240 compiti scientifici ad alto rischio in 6 domini, insieme a 30 strumenti scientifici appositamente progettati e 120 compiti relativi ai rischi degli strumenti. Esperimenti estensivi dimostrano che SafeScientist migliora significativamente le prestazioni di sicurezza del 35\% rispetto ai tradizionali framework di scienziato AI, senza compromettere la qualità dei risultati scientifici. Inoltre, convalidiamo rigorosamente la robustezza della nostra pipeline di sicurezza contro diversi metodi di attacco avversario, confermando ulteriormente l'efficacia del nostro approccio integrato. Il codice e i dati saranno disponibili all'indirizzo https://github.com/ulab-uiuc/SafeScientist. \red{Attenzione: questo articolo contiene dati di esempio che potrebbero essere offensivi o dannosi.}
English
Recent advancements in large language model (LLM) agents have significantly
accelerated scientific discovery automation, yet concurrently raised critical
ethical and safety concerns. To systematically address these challenges, we
introduce SafeScientist, an innovative AI scientist framework
explicitly designed to enhance safety and ethical responsibility in AI-driven
scientific exploration. SafeScientist proactively refuses ethically
inappropriate or high-risk tasks and rigorously emphasizes safety throughout
the research process. To achieve comprehensive safety oversight, we integrate
multiple defensive mechanisms, including prompt monitoring, agent-collaboration
monitoring, tool-use monitoring, and an ethical reviewer component.
Complementing SafeScientist, we propose SciSafetyBench, a novel
benchmark specifically designed to evaluate AI safety in scientific contexts,
comprising 240 high-risk scientific tasks across 6 domains, alongside 30
specially designed scientific tools and 120 tool-related risk tasks. Extensive
experiments demonstrate that SafeScientist significantly improves safety
performance by 35\% compared to traditional AI scientist frameworks, without
compromising scientific output quality. Additionally, we rigorously validate
the robustness of our safety pipeline against diverse adversarial attack
methods, further confirming the effectiveness of our integrated approach. The
code and data will be available at https://github.com/ulab-uiuc/SafeScientist.
red{Warning: this paper contains example data that may be offensive
or harmful.}