SafeScientist: В направлении осознанных рисков научных открытий агентами на основе языковых моделей
SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents
May 29, 2025
Авторы: Kunlun Zhu, Jiaxun Zhang, Ziheng Qi, Nuoxing Shang, Zijia Liu, Peixuan Han, Yue Su, Haofei Yu, Jiaxuan You
cs.AI
Аннотация
Последние достижения в области агентов на основе больших языковых моделей (LLM) значительно ускорили автоматизацию научных открытий, но одновременно вызвали серьезные этические и вопросы безопасности. Для систематического решения этих проблем мы представляем SafeScientist — инновационную структуру AI-ученого, специально разработанную для повышения безопасности и этической ответственности в научных исследованиях, управляемых ИИ. SafeScientist активно отказывается от выполнения этически неприемлемых или высокорисковых задач и строго акцентирует внимание на безопасности на протяжении всего исследовательского процесса. Для обеспечения всестороннего контроля безопасности мы интегрируем несколько защитных механизмов, включая мониторинг запросов, мониторинг взаимодействия агентов, мониторинг использования инструментов и компонент этической оценки. В дополнение к SafeScientist мы предлагаем SciSafetyBench — новый эталонный тест, специально разработанный для оценки безопасности ИИ в научных контекстах, включающий 240 высокорисковых научных задач в 6 областях, а также 30 специально разработанных научных инструментов и 120 задач, связанных с рисками использования инструментов. Многочисленные эксперименты показывают, что SafeScientist значительно улучшает показатели безопасности на 35\% по сравнению с традиционными структурами AI-ученого, не снижая качества научных результатов. Кроме того, мы тщательно проверяем устойчивость нашей системы безопасности к различным методам атак, что дополнительно подтверждает эффективность нашего интегрированного подхода. Код и данные будут доступны по адресу https://github.com/ulab-uiuc/SafeScientist. red{Внимание: в данной статье содержатся примеры данных, которые могут быть оскорбительными или вредными.}
English
Recent advancements in large language model (LLM) agents have significantly
accelerated scientific discovery automation, yet concurrently raised critical
ethical and safety concerns. To systematically address these challenges, we
introduce SafeScientist, an innovative AI scientist framework
explicitly designed to enhance safety and ethical responsibility in AI-driven
scientific exploration. SafeScientist proactively refuses ethically
inappropriate or high-risk tasks and rigorously emphasizes safety throughout
the research process. To achieve comprehensive safety oversight, we integrate
multiple defensive mechanisms, including prompt monitoring, agent-collaboration
monitoring, tool-use monitoring, and an ethical reviewer component.
Complementing SafeScientist, we propose SciSafetyBench, a novel
benchmark specifically designed to evaluate AI safety in scientific contexts,
comprising 240 high-risk scientific tasks across 6 domains, alongside 30
specially designed scientific tools and 120 tool-related risk tasks. Extensive
experiments demonstrate that SafeScientist significantly improves safety
performance by 35\% compared to traditional AI scientist frameworks, without
compromising scientific output quality. Additionally, we rigorously validate
the robustness of our safety pipeline against diverse adversarial attack
methods, further confirming the effectiveness of our integrated approach. The
code and data will be available at https://github.com/ulab-uiuc/SafeScientist.
red{Warning: this paper contains example data that may be offensive
or harmful.}Summary
AI-Generated Summary