SafeScientist: Rumo a Descobertas Científicas Conscientes de Riscos por Agentes de LLM

Resumo

Os recentes avanços em agentes de modelos de linguagem de grande escala (LLM) aceleraram significativamente a automação da descoberta científica, mas também levantaram preocupações críticas de ética e segurança. Para abordar sistematicamente esses desafios, apresentamos o SafeScientist, uma estrutura inovadora de cientista de IA projetada explicitamente para aprimorar a segurança e a responsabilidade ética na exploração científica impulsionada por IA. O SafeScientist recusa proativamente tarefas eticamente inadequadas ou de alto risco e enfatiza rigorosamente a segurança ao longo do processo de pesquisa. Para alcançar uma supervisão abrangente de segurança, integramos múltiplos mecanismos defensivos, incluindo monitoramento de prompts, monitoramento de colaboração entre agentes, monitoramento do uso de ferramentas e um componente de revisor ético. Complementando o SafeScientist, propomos o SciSafetyBench, um novo benchmark especificamente projetado para avaliar a segurança de IA em contextos científicos, composto por 240 tarefas científicas de alto risco em 6 domínios, juntamente com 30 ferramentas científicas especialmente projetadas e 120 tarefas de risco relacionadas a ferramentas. Experimentos extensivos demonstram que o SafeScientist melhora significativamente o desempenho de segurança em 35\% em comparação com estruturas tradicionais de cientista de IA, sem comprometer a qualidade da produção científica. Além disso, validamos rigorosamente a robustez de nosso pipeline de segurança contra diversos métodos de ataque adversário, confirmando ainda mais a eficácia de nossa abordagem integrada. O código e os dados estarão disponíveis em https://github.com/ulab-uiuc/SafeScientist. **Aviso: este artigo contém dados de exemplo que podem ser ofensivos ou prejudiciais.**

English

Recent advancements in large language model (LLM) agents have significantly accelerated scientific discovery automation, yet concurrently raised critical ethical and safety concerns. To systematically address these challenges, we introduce SafeScientist, an innovative AI scientist framework explicitly designed to enhance safety and ethical responsibility in AI-driven scientific exploration. SafeScientist proactively refuses ethically inappropriate or high-risk tasks and rigorously emphasizes safety throughout the research process. To achieve comprehensive safety oversight, we integrate multiple defensive mechanisms, including prompt monitoring, agent-collaboration monitoring, tool-use monitoring, and an ethical reviewer component. Complementing SafeScientist, we propose SciSafetyBench, a novel benchmark specifically designed to evaluate AI safety in scientific contexts, comprising 240 high-risk scientific tasks across 6 domains, alongside 30 specially designed scientific tools and 120 tool-related risk tasks. Extensive experiments demonstrate that SafeScientist significantly improves safety performance by 35\% compared to traditional AI scientist frameworks, without compromising scientific output quality. Additionally, we rigorously validate the robustness of our safety pipeline against diverse adversarial attack methods, further confirming the effectiveness of our integrated approach. The code and data will be available at https://github.com/ulab-uiuc/SafeScientist. red{Warning: this paper contains example data that may be offensive or harmful.}

SafeScientist: Rumo a Descobertas Científicas Conscientes de Riscos por Agentes de LLM

SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents

Resumo

Support