Superintelligente agents vormen catastrofale risico's: Kan Wetenschapper AI een veiliger pad bieden?
Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path?
February 21, 2025
Auteurs: Yoshua Bengio, Michael Cohen, Damiano Fornasiere, Joumana Ghosn, Pietro Greiner, Matt MacDermott, Sören Mindermann, Adam Oberman, Jesse Richardson, Oliver Richardson, Marc-Antoine Rondeau, Pierre-Luc St-Charles, David Williams-King
cs.AI
Samenvatting
De toonaangevende AI-bedrijven richten zich steeds meer op het ontwikkelen van generalistische AI-agenten — systemen die autonoom kunnen plannen, handelen en doelen kunnen nastreven voor bijna alle taken die mensen kunnen uitvoeren. Hoewel deze systemen zeer nuttig kunnen zijn, vormt ongereguleerde AI-agentschap een aanzienlijk risico voor de openbare veiligheid en beveiliging, variërend van misbruik door kwaadwillende actoren tot een mogelijk onomkeerbaar verlies van menselijke controle. We bespreken hoe deze risico's voortkomen uit de huidige AI-trainingsmethoden. Inderdaad hebben verschillende scenario's en experimenten aangetoond dat AI-agenten zich kunnen bezighouden met bedrog of doelen kunnen nastreven die niet door menselijke operators zijn gespecificeerd en die in strijd zijn met menselijke belangen, zoals zelfbehoud. In navolging van het voorzorgsprincipe zien we een sterke behoefte aan veiligere, maar nog steeds nuttige alternatieven voor de huidige op agentschap gerichte ontwikkeling. Daarom stellen we als een kernbouwsteen voor verdere vooruitgang de ontwikkeling voor van een niet-agentisch AI-systeem dat van ontwerp af aan betrouwbaar en veilig is, wat we Scientist AI noemen. Dit systeem is ontworpen om de wereld te verklaren op basis van observaties, in plaats van acties te ondernemen om mensen na te bootsen of te behagen. Het bestaat uit een wereldmodel dat theorieën genereert om data te verklaren en een vraag-antwoord-inferentiemachine. Beide componenten werken met een expliciet begrip van onzekerheid om de risico's van overmoedige voorspellingen te beperken. Gezien deze overwegingen zou een Scientist AI kunnen worden gebruikt om menselijke onderzoekers te ondersteunen bij het versnellen van wetenschappelijke vooruitgang, inclusief op het gebied van AI-veiligheid. In het bijzonder kan ons systeem worden ingezet als een vangrail tegen AI-agenten die mogelijk worden gecreëerd ondanks de betrokken risico's. Uiteindelijk kan de focus op niet-agentische AI de voordelen van AI-innovatie mogelijk maken terwijl de risico's die gepaard gaan met de huidige ontwikkeling worden vermeden. We hopen dat deze argumenten onderzoekers, ontwikkelaars en beleidsmakers zullen motiveren om dit veiligere pad te verkiezen.
English
The leading AI companies are increasingly focused on building generalist AI
agents -- systems that can autonomously plan, act, and pursue goals across
almost all tasks that humans can perform. Despite how useful these systems
might be, unchecked AI agency poses significant risks to public safety and
security, ranging from misuse by malicious actors to a potentially irreversible
loss of human control. We discuss how these risks arise from current AI
training methods. Indeed, various scenarios and experiments have demonstrated
the possibility of AI agents engaging in deception or pursuing goals that were
not specified by human operators and that conflict with human interests, such
as self-preservation. Following the precautionary principle, we see a strong
need for safer, yet still useful, alternatives to the current agency-driven
trajectory. Accordingly, we propose as a core building block for further
advances the development of a non-agentic AI system that is trustworthy and
safe by design, which we call Scientist AI. This system is designed to explain
the world from observations, as opposed to taking actions in it to imitate or
please humans. It comprises a world model that generates theories to explain
data and a question-answering inference machine. Both components operate with
an explicit notion of uncertainty to mitigate the risks of overconfident
predictions. In light of these considerations, a Scientist AI could be used to
assist human researchers in accelerating scientific progress, including in AI
safety. In particular, our system can be employed as a guardrail against AI
agents that might be created despite the risks involved. Ultimately, focusing
on non-agentic AI may enable the benefits of AI innovation while avoiding the
risks associated with the current trajectory. We hope these arguments will
motivate researchers, developers, and policymakers to favor this safer path.Summary
AI-Generated Summary