SafeScientist: Hacia Descubrimientos Científicos Conscientes del Riesgo por Agentes de LLM
SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents
May 29, 2025
Autores: Kunlun Zhu, Jiaxun Zhang, Ziheng Qi, Nuoxing Shang, Zijia Liu, Peixuan Han, Yue Su, Haofei Yu, Jiaxuan You
cs.AI
Resumen
Los recientes avances en los agentes de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) han acelerado significativamente la automatización del descubrimiento científico, pero al mismo tiempo han planteado preocupaciones críticas en materia de ética y seguridad. Para abordar sistemáticamente estos desafíos, presentamos SafeScientist, un marco innovador de científico IA diseñado explícitamente para mejorar la seguridad y la responsabilidad ética en la exploración científica impulsada por IA. SafeScientist rechaza proactivamente tareas éticamente inapropiadas o de alto riesgo y enfatiza rigurosamente la seguridad durante todo el proceso de investigación. Para lograr una supervisión integral de la seguridad, integramos múltiples mecanismos defensivos, incluyendo monitoreo de indicaciones, monitoreo de colaboración entre agentes, monitoreo del uso de herramientas y un componente de revisión ética. Complementando a SafeScientist, proponemos SciSafetyBench, un nuevo punto de referencia diseñado específicamente para evaluar la seguridad de la IA en contextos científicos, que comprende 240 tareas científicas de alto riesgo en 6 dominios, junto con 30 herramientas científicas especialmente diseñadas y 120 tareas de riesgo relacionadas con herramientas. Experimentos extensos demuestran que SafeScientist mejora significativamente el desempeño en seguridad en un 35\% en comparación con los marcos tradicionales de científicos IA, sin comprometer la calidad de los resultados científicos. Además, validamos rigurosamente la robustez de nuestra cadena de seguridad contra diversos métodos de ataques adversarios, confirmando aún más la efectividad de nuestro enfoque integrado. El código y los datos estarán disponibles en https://github.com/ulab-uiuc/SafeScientist. \red{Advertencia: este artículo contiene datos de ejemplo que pueden ser ofensivos o dañinos.}
English
Recent advancements in large language model (LLM) agents have significantly
accelerated scientific discovery automation, yet concurrently raised critical
ethical and safety concerns. To systematically address these challenges, we
introduce SafeScientist, an innovative AI scientist framework
explicitly designed to enhance safety and ethical responsibility in AI-driven
scientific exploration. SafeScientist proactively refuses ethically
inappropriate or high-risk tasks and rigorously emphasizes safety throughout
the research process. To achieve comprehensive safety oversight, we integrate
multiple defensive mechanisms, including prompt monitoring, agent-collaboration
monitoring, tool-use monitoring, and an ethical reviewer component.
Complementing SafeScientist, we propose SciSafetyBench, a novel
benchmark specifically designed to evaluate AI safety in scientific contexts,
comprising 240 high-risk scientific tasks across 6 domains, alongside 30
specially designed scientific tools and 120 tool-related risk tasks. Extensive
experiments demonstrate that SafeScientist significantly improves safety
performance by 35\% compared to traditional AI scientist frameworks, without
compromising scientific output quality. Additionally, we rigorously validate
the robustness of our safety pipeline against diverse adversarial attack
methods, further confirming the effectiveness of our integrated approach. The
code and data will be available at https://github.com/ulab-uiuc/SafeScientist.
red{Warning: this paper contains example data that may be offensive
or harmful.}