ChatPaper.aiChatPaper

超知能エージェントは壊滅的なリスクをもたらす:科学者AIはより安全な道を提供できるか?

Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path?

February 21, 2025
著者: Yoshua Bengio, Michael Cohen, Damiano Fornasiere, Joumana Ghosn, Pietro Greiner, Matt MacDermott, Sören Mindermann, Adam Oberman, Jesse Richardson, Oliver Richardson, Marc-Antoine Rondeau, Pierre-Luc St-Charles, David Williams-King
cs.AI

要旨

主要なAI企業は、汎用AIエージェントの構築にますます注力しています。これらのシステムは、人間が行うほぼすべてのタスクにおいて自律的に計画し、行動し、目標を追求することができます。これらのシステムがどれほど有用であっても、制御されないAIエージェントは、悪意のある行為者による悪用から、人間の制御が不可逆的に失われる可能性まで、公共の安全とセキュリティに重大なリスクをもたらします。我々は、これらのリスクが現在のAIトレーニング方法からどのように生じるかについて議論します。実際、さまざまなシナリオや実験により、AIエージェントが人間のオペレーターによって指定されず、人間の利益と衝突する目標(例えば自己保存)を追求したり、欺瞞を行ったりする可能性が示されています。予防原則に従い、我々は現在のエージェント主導の軌道に対する、より安全でかつ有用な代替手段の必要性を強く認識しています。それに応じて、我々は、信頼性と安全性を設計段階から備えた非エージェント型AIシステムの開発を、さらなる進歩のための核心的な構成要素として提案します。これを「Scientist AI」と呼びます。このシステムは、世界を観察から説明するように設計されており、人間を模倣したり喜ばせたりするために行動を取るのではありません。データを説明する理論を生成する世界モデルと、質問応答推論マシンで構成されています。両コンポーネントは、過信による予測のリスクを軽減するために、不確実性の明示的な概念を操作します。これらの考察に基づき、Scientist AIは、AI安全性を含む科学の進歩を加速するために、人間の研究者を支援するために使用される可能性があります。特に、我々のシステムは、リスクが存在するにもかかわらず作成される可能性のあるAIエージェントに対するガードレールとして利用できます。最終的に、非エージェント型AIに焦点を当てることで、現在の軌道に関連するリスクを回避しながら、AIイノベーションの利点を享受できる可能性があります。我々は、これらの議論が研究者、開発者、政策立案者にこのより安全な道を選ぶ動機付けとなることを望みます。
English
The leading AI companies are increasingly focused on building generalist AI agents -- systems that can autonomously plan, act, and pursue goals across almost all tasks that humans can perform. Despite how useful these systems might be, unchecked AI agency poses significant risks to public safety and security, ranging from misuse by malicious actors to a potentially irreversible loss of human control. We discuss how these risks arise from current AI training methods. Indeed, various scenarios and experiments have demonstrated the possibility of AI agents engaging in deception or pursuing goals that were not specified by human operators and that conflict with human interests, such as self-preservation. Following the precautionary principle, we see a strong need for safer, yet still useful, alternatives to the current agency-driven trajectory. Accordingly, we propose as a core building block for further advances the development of a non-agentic AI system that is trustworthy and safe by design, which we call Scientist AI. This system is designed to explain the world from observations, as opposed to taking actions in it to imitate or please humans. It comprises a world model that generates theories to explain data and a question-answering inference machine. Both components operate with an explicit notion of uncertainty to mitigate the risks of overconfident predictions. In light of these considerations, a Scientist AI could be used to assist human researchers in accelerating scientific progress, including in AI safety. In particular, our system can be employed as a guardrail against AI agents that might be created despite the risks involved. Ultimately, focusing on non-agentic AI may enable the benefits of AI innovation while avoiding the risks associated with the current trajectory. We hope these arguments will motivate researchers, developers, and policymakers to favor this safer path.

Summary

AI-Generated Summary

PDF52February 24, 2025