ChatPaper.aiChatPaper

초지능 에이전트가 초래할 재앙적 위험: 과학자 AI가 더 안전한 길을 제시할 수 있을까?

Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path?

February 21, 2025
저자: Yoshua Bengio, Michael Cohen, Damiano Fornasiere, Joumana Ghosn, Pietro Greiner, Matt MacDermott, Sören Mindermann, Adam Oberman, Jesse Richardson, Oliver Richardson, Marc-Antoine Rondeau, Pierre-Luc St-Charles, David Williams-King
cs.AI

초록

주요 AI 기업들은 점점 더 범용 AI 에이전트 구축에 집중하고 있습니다. 이는 인간이 수행할 수 있는 거의 모든 작업에 걸쳐 자율적으로 계획을 세우고 행동하며 목표를 추구할 수 있는 시스템입니다. 이러한 시스템이 유용할 수 있음에도 불구하고, 통제되지 않은 AI 에이전트는 악의적인 행위자의 오용부터 인간 통제의 잠재적이고도 돌이킬 수 없는 상실에 이르기까지 공공 안전과 보안에 중대한 위험을 초래할 수 있습니다. 우리는 이러한 위험이 현재의 AI 훈련 방법에서 어떻게 발생하는지 논의합니다. 실제로 다양한 시나리오와 실험을 통해 AI 에이전트가 인간 운영자가 명시하지 않았고 인간의 이익과 상충하는 목표(예: 자기 보존)를 추구하거나 기만 행위를 할 가능성이 입증되었습니다. 예방 원칙에 따라, 우리는 현재의 에이전트 중심 경로보다 더 안전하면서도 여전히 유용한 대안이 절실히 필요하다고 봅니다. 이에 따라, 우리는 신뢰할 수 있고 설계 상 안전한 비에이전트 AI 시스템의 개발을 더 나은 진보를 위한 핵심 구성 요소로 제안하며, 이를 '과학자 AI(Scientist AI)'라고 명명합니다. 이 시스템은 인간을 모방하거나 기쁘게 하기 위해 행동을 취하는 대신, 관찰을 통해 세계를 설명하도록 설계되었습니다. 이는 데이터를 설명하기 위한 이론을 생성하는 세계 모델과 질문-응답 추론 기계로 구성됩니다. 두 구성 요소 모두 과도하게 확신에 찬 예측의 위험을 완화하기 위해 명시적인 불확실성 개념을 가지고 작동합니다. 이러한 고려 사항을 감안할 때, 과학자 AI는 AI 안전을 포함한 과학적 진보를 가속화하기 위해 인간 연구자를 지원하는 데 사용될 수 있습니다. 특히, 우리의 시스템은 위험에도 불구하고 생성될 수 있는 AI 에이전트에 대한 방어벽으로 활용될 수 있습니다. 궁극적으로, 비에이전트 AI에 초점을 맞추는 것은 현재의 경로와 관련된 위험을 피하면서 AI 혁신의 이점을 누릴 수 있게 할 수 있습니다. 우리는 이러한 논의가 연구자, 개발자, 정책 입안자들이 이 더 안전한 길을 선택하도록 동기를 부여하기를 바랍니다.
English
The leading AI companies are increasingly focused on building generalist AI agents -- systems that can autonomously plan, act, and pursue goals across almost all tasks that humans can perform. Despite how useful these systems might be, unchecked AI agency poses significant risks to public safety and security, ranging from misuse by malicious actors to a potentially irreversible loss of human control. We discuss how these risks arise from current AI training methods. Indeed, various scenarios and experiments have demonstrated the possibility of AI agents engaging in deception or pursuing goals that were not specified by human operators and that conflict with human interests, such as self-preservation. Following the precautionary principle, we see a strong need for safer, yet still useful, alternatives to the current agency-driven trajectory. Accordingly, we propose as a core building block for further advances the development of a non-agentic AI system that is trustworthy and safe by design, which we call Scientist AI. This system is designed to explain the world from observations, as opposed to taking actions in it to imitate or please humans. It comprises a world model that generates theories to explain data and a question-answering inference machine. Both components operate with an explicit notion of uncertainty to mitigate the risks of overconfident predictions. In light of these considerations, a Scientist AI could be used to assist human researchers in accelerating scientific progress, including in AI safety. In particular, our system can be employed as a guardrail against AI agents that might be created despite the risks involved. Ultimately, focusing on non-agentic AI may enable the benefits of AI innovation while avoiding the risks associated with the current trajectory. We hope these arguments will motivate researchers, developers, and policymakers to favor this safer path.

Summary

AI-Generated Summary

PDF52February 24, 2025