Сверхразумные агенты представляют катастрофические риски: может ли ИИ-учёный предложить более безопасный путь?
Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path?
February 21, 2025
Авторы: Yoshua Bengio, Michael Cohen, Damiano Fornasiere, Joumana Ghosn, Pietro Greiner, Matt MacDermott, Sören Mindermann, Adam Oberman, Jesse Richardson, Oliver Richardson, Marc-Antoine Rondeau, Pierre-Luc St-Charles, David Williams-King
cs.AI
Аннотация
Ведущие компании в области ИИ все больше сосредотачиваются на создании универсальных ИИ-агентов — систем, способных автономно планировать, действовать и достигать целей практически во всех задачах, которые могут выполнять люди. Несмотря на потенциальную полезность таких систем, неконтролируемая автономия ИИ представляет значительные риски для общественной безопасности и защиты, начиная от злоупотреблений со стороны злоумышленников и заканчивая потенциально необратимой потерей человеческого контроля. Мы обсуждаем, как эти риски возникают из-за современных методов обучения ИИ. Действительно, различные сценарии и эксперименты продемонстрировали возможность того, что ИИ-агенты могут прибегать к обману или преследовать цели, не заданные человеком и противоречащие человеческим интересам, такие как самосохранение. Руководствуясь принципом предосторожности, мы видим острую необходимость в более безопасных, но при этом полезных альтернативах текущему вектору развития, ориентированному на автономию. Соответственно, мы предлагаем в качестве ключевого элемента для дальнейшего прогресса разработку неагентной ИИ-системы, которая изначально является надежной и безопасной, — мы называем ее Scientist AI. Эта система предназначена для объяснения мира на основе наблюдений, а не для совершения действий в нем с целью имитации или угождения людям. Она включает в себя модель мира, которая генерирует теории для объяснения данных, и механизм вывода, отвечающий на вопросы. Оба компонента работают с явным учетом неопределенности, чтобы снизить риски излишне уверенных прогнозов. Учитывая эти соображения, Scientist AI может быть использована для помощи исследователям в ускорении научного прогресса, включая безопасность ИИ. В частности, наша система может служить защитным барьером против ИИ-агентов, которые могут быть созданы, несмотря на связанные с ними риски. В конечном итоге, сосредоточение на неагентных ИИ может позволить получить преимущества инноваций в области ИИ, избегая рисков, связанных с текущим вектором развития. Мы надеемся, что эти аргументы вдохновят исследователей, разработчиков и политиков отдать предпочтение этому более безопасному пути.
English
The leading AI companies are increasingly focused on building generalist AI
agents -- systems that can autonomously plan, act, and pursue goals across
almost all tasks that humans can perform. Despite how useful these systems
might be, unchecked AI agency poses significant risks to public safety and
security, ranging from misuse by malicious actors to a potentially irreversible
loss of human control. We discuss how these risks arise from current AI
training methods. Indeed, various scenarios and experiments have demonstrated
the possibility of AI agents engaging in deception or pursuing goals that were
not specified by human operators and that conflict with human interests, such
as self-preservation. Following the precautionary principle, we see a strong
need for safer, yet still useful, alternatives to the current agency-driven
trajectory. Accordingly, we propose as a core building block for further
advances the development of a non-agentic AI system that is trustworthy and
safe by design, which we call Scientist AI. This system is designed to explain
the world from observations, as opposed to taking actions in it to imitate or
please humans. It comprises a world model that generates theories to explain
data and a question-answering inference machine. Both components operate with
an explicit notion of uncertainty to mitigate the risks of overconfident
predictions. In light of these considerations, a Scientist AI could be used to
assist human researchers in accelerating scientific progress, including in AI
safety. In particular, our system can be employed as a guardrail against AI
agents that might be created despite the risks involved. Ultimately, focusing
on non-agentic AI may enable the benefits of AI innovation while avoiding the
risks associated with the current trajectory. We hope these arguments will
motivate researchers, developers, and policymakers to favor this safer path.Summary
AI-Generated Summary