SafeScientist: Rumo a Descobertas Científicas Conscientes de Riscos por Agentes de LLM
SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents
May 29, 2025
Autores: Kunlun Zhu, Jiaxun Zhang, Ziheng Qi, Nuoxing Shang, Zijia Liu, Peixuan Han, Yue Su, Haofei Yu, Jiaxuan You
cs.AI
Resumo
Os recentes avanços em agentes de modelos de linguagem de grande escala (LLM) aceleraram significativamente a automação da descoberta científica, mas também levantaram preocupações críticas de ética e segurança. Para abordar sistematicamente esses desafios, apresentamos o SafeScientist, uma estrutura inovadora de cientista de IA projetada explicitamente para aprimorar a segurança e a responsabilidade ética na exploração científica impulsionada por IA. O SafeScientist recusa proativamente tarefas eticamente inadequadas ou de alto risco e enfatiza rigorosamente a segurança ao longo do processo de pesquisa. Para alcançar uma supervisão abrangente de segurança, integramos múltiplos mecanismos defensivos, incluindo monitoramento de prompts, monitoramento de colaboração entre agentes, monitoramento do uso de ferramentas e um componente de revisor ético. Complementando o SafeScientist, propomos o SciSafetyBench, um novo benchmark especificamente projetado para avaliar a segurança de IA em contextos científicos, composto por 240 tarefas científicas de alto risco em 6 domínios, juntamente com 30 ferramentas científicas especialmente projetadas e 120 tarefas de risco relacionadas a ferramentas. Experimentos extensivos demonstram que o SafeScientist melhora significativamente o desempenho de segurança em 35\% em comparação com estruturas tradicionais de cientista de IA, sem comprometer a qualidade da produção científica. Além disso, validamos rigorosamente a robustez de nosso pipeline de segurança contra diversos métodos de ataque adversário, confirmando ainda mais a eficácia de nossa abordagem integrada. O código e os dados estarão disponíveis em https://github.com/ulab-uiuc/SafeScientist. **Aviso: este artigo contém dados de exemplo que podem ser ofensivos ou prejudiciais.**
English
Recent advancements in large language model (LLM) agents have significantly
accelerated scientific discovery automation, yet concurrently raised critical
ethical and safety concerns. To systematically address these challenges, we
introduce SafeScientist, an innovative AI scientist framework
explicitly designed to enhance safety and ethical responsibility in AI-driven
scientific exploration. SafeScientist proactively refuses ethically
inappropriate or high-risk tasks and rigorously emphasizes safety throughout
the research process. To achieve comprehensive safety oversight, we integrate
multiple defensive mechanisms, including prompt monitoring, agent-collaboration
monitoring, tool-use monitoring, and an ethical reviewer component.
Complementing SafeScientist, we propose SciSafetyBench, a novel
benchmark specifically designed to evaluate AI safety in scientific contexts,
comprising 240 high-risk scientific tasks across 6 domains, alongside 30
specially designed scientific tools and 120 tool-related risk tasks. Extensive
experiments demonstrate that SafeScientist significantly improves safety
performance by 35\% compared to traditional AI scientist frameworks, without
compromising scientific output quality. Additionally, we rigorously validate
the robustness of our safety pipeline against diverse adversarial attack
methods, further confirming the effectiveness of our integrated approach. The
code and data will be available at https://github.com/ulab-uiuc/SafeScientist.
red{Warning: this paper contains example data that may be offensive
or harmful.}