ChatPaper.aiChatPaper

Superintelligente agents vormen catastrofale risico's: Kan Wetenschapper AI een veiliger pad bieden?

Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path?

February 21, 2025
Auteurs: Yoshua Bengio, Michael Cohen, Damiano Fornasiere, Joumana Ghosn, Pietro Greiner, Matt MacDermott, Sören Mindermann, Adam Oberman, Jesse Richardson, Oliver Richardson, Marc-Antoine Rondeau, Pierre-Luc St-Charles, David Williams-King
cs.AI

Samenvatting

De toonaangevende AI-bedrijven richten zich steeds meer op het ontwikkelen van generalistische AI-agenten — systemen die autonoom kunnen plannen, handelen en doelen kunnen nastreven voor bijna alle taken die mensen kunnen uitvoeren. Hoewel deze systemen zeer nuttig kunnen zijn, vormt ongereguleerde AI-agentschap een aanzienlijk risico voor de openbare veiligheid en beveiliging, variërend van misbruik door kwaadwillende actoren tot een mogelijk onomkeerbaar verlies van menselijke controle. We bespreken hoe deze risico's voortkomen uit de huidige AI-trainingsmethoden. Inderdaad hebben verschillende scenario's en experimenten aangetoond dat AI-agenten zich kunnen bezighouden met bedrog of doelen kunnen nastreven die niet door menselijke operators zijn gespecificeerd en die in strijd zijn met menselijke belangen, zoals zelfbehoud. In navolging van het voorzorgsprincipe zien we een sterke behoefte aan veiligere, maar nog steeds nuttige alternatieven voor de huidige op agentschap gerichte ontwikkeling. Daarom stellen we als een kernbouwsteen voor verdere vooruitgang de ontwikkeling voor van een niet-agentisch AI-systeem dat van ontwerp af aan betrouwbaar en veilig is, wat we Scientist AI noemen. Dit systeem is ontworpen om de wereld te verklaren op basis van observaties, in plaats van acties te ondernemen om mensen na te bootsen of te behagen. Het bestaat uit een wereldmodel dat theorieën genereert om data te verklaren en een vraag-antwoord-inferentiemachine. Beide componenten werken met een expliciet begrip van onzekerheid om de risico's van overmoedige voorspellingen te beperken. Gezien deze overwegingen zou een Scientist AI kunnen worden gebruikt om menselijke onderzoekers te ondersteunen bij het versnellen van wetenschappelijke vooruitgang, inclusief op het gebied van AI-veiligheid. In het bijzonder kan ons systeem worden ingezet als een vangrail tegen AI-agenten die mogelijk worden gecreëerd ondanks de betrokken risico's. Uiteindelijk kan de focus op niet-agentische AI de voordelen van AI-innovatie mogelijk maken terwijl de risico's die gepaard gaan met de huidige ontwikkeling worden vermeden. We hopen dat deze argumenten onderzoekers, ontwikkelaars en beleidsmakers zullen motiveren om dit veiligere pad te verkiezen.
English
The leading AI companies are increasingly focused on building generalist AI agents -- systems that can autonomously plan, act, and pursue goals across almost all tasks that humans can perform. Despite how useful these systems might be, unchecked AI agency poses significant risks to public safety and security, ranging from misuse by malicious actors to a potentially irreversible loss of human control. We discuss how these risks arise from current AI training methods. Indeed, various scenarios and experiments have demonstrated the possibility of AI agents engaging in deception or pursuing goals that were not specified by human operators and that conflict with human interests, such as self-preservation. Following the precautionary principle, we see a strong need for safer, yet still useful, alternatives to the current agency-driven trajectory. Accordingly, we propose as a core building block for further advances the development of a non-agentic AI system that is trustworthy and safe by design, which we call Scientist AI. This system is designed to explain the world from observations, as opposed to taking actions in it to imitate or please humans. It comprises a world model that generates theories to explain data and a question-answering inference machine. Both components operate with an explicit notion of uncertainty to mitigate the risks of overconfident predictions. In light of these considerations, a Scientist AI could be used to assist human researchers in accelerating scientific progress, including in AI safety. In particular, our system can be employed as a guardrail against AI agents that might be created despite the risks involved. Ultimately, focusing on non-agentic AI may enable the benefits of AI innovation while avoiding the risks associated with the current trajectory. We hope these arguments will motivate researchers, developers, and policymakers to favor this safer path.

Summary

AI-Generated Summary

PDF52February 24, 2025