Gli agenti superintelligenti rappresentano rischi catastrofici: l'IA scientifica può offrire un percorso più sicuro?
Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path?
February 21, 2025
Autori: Yoshua Bengio, Michael Cohen, Damiano Fornasiere, Joumana Ghosn, Pietro Greiner, Matt MacDermott, Sören Mindermann, Adam Oberman, Jesse Richardson, Oliver Richardson, Marc-Antoine Rondeau, Pierre-Luc St-Charles, David Williams-King
cs.AI
Abstract
Le principali aziende di IA sono sempre più focalizzate sulla creazione di agenti IA generalisti – sistemi in grado di pianificare, agire e perseguire obiettivi in modo autonomo in quasi tutte le attività che gli esseri umani possono svolgere. Nonostante l'utilità di questi sistemi, un'agenzia IA non controllata rappresenta rischi significativi per la sicurezza pubblica, che vanno dall'uso improprio da parte di attori malintenzionati a una potenziale perdita irreversibile del controllo umano. Discutiamo come questi rischi derivino dagli attuali metodi di addestramento dell'IA. Infatti, vari scenari ed esperimenti hanno dimostrato la possibilità che agenti IA si impegnino in comportamenti ingannevoli o perseguano obiettivi non specificati dagli operatori umani e in conflitto con gli interessi umani, come l'autoconservazione. Seguendo il principio di precauzione, riteniamo essenziale sviluppare alternative più sicure, ma comunque utili, rispetto all'attuale traiettoria incentrata sull'agenzia. Di conseguenza, proponiamo come elemento fondamentale per ulteriori progressi lo sviluppo di un sistema IA non agentico, affidabile e sicuro per progettazione, che chiamiamo Scientist AI. Questo sistema è progettato per spiegare il mondo attraverso osservazioni, anziché agire in esso per imitare o compiacere gli esseri umani. Comprende un modello del mondo che genera teorie per spiegare i dati e una macchina inferenziale per rispondere alle domande. Entrambi i componenti operano con una nozione esplicita di incertezza per mitigare i rischi di previsioni eccessivamente sicure. Alla luce di queste considerazioni, uno Scientist AI potrebbe essere utilizzato per assistere i ricercatori umani nell'accelerare il progresso scientifico, incluso quello nella sicurezza dell'IA. In particolare, il nostro sistema può essere impiegato come barriera protettiva contro agenti IA che potrebbero essere creati nonostante i rischi coinvolti. In definitiva, concentrarsi sull'IA non agentica potrebbe consentire di ottenere i benefici dell'innovazione nell'IA evitando i rischi associati all'attuale traiettoria. Speriamo che questi argomenti motivino ricercatori, sviluppatori e decisori politici a favorire questo percorso più sicuro.
English
The leading AI companies are increasingly focused on building generalist AI
agents -- systems that can autonomously plan, act, and pursue goals across
almost all tasks that humans can perform. Despite how useful these systems
might be, unchecked AI agency poses significant risks to public safety and
security, ranging from misuse by malicious actors to a potentially irreversible
loss of human control. We discuss how these risks arise from current AI
training methods. Indeed, various scenarios and experiments have demonstrated
the possibility of AI agents engaging in deception or pursuing goals that were
not specified by human operators and that conflict with human interests, such
as self-preservation. Following the precautionary principle, we see a strong
need for safer, yet still useful, alternatives to the current agency-driven
trajectory. Accordingly, we propose as a core building block for further
advances the development of a non-agentic AI system that is trustworthy and
safe by design, which we call Scientist AI. This system is designed to explain
the world from observations, as opposed to taking actions in it to imitate or
please humans. It comprises a world model that generates theories to explain
data and a question-answering inference machine. Both components operate with
an explicit notion of uncertainty to mitigate the risks of overconfident
predictions. In light of these considerations, a Scientist AI could be used to
assist human researchers in accelerating scientific progress, including in AI
safety. In particular, our system can be employed as a guardrail against AI
agents that might be created despite the risks involved. Ultimately, focusing
on non-agentic AI may enable the benefits of AI innovation while avoiding the
risks associated with the current trajectory. We hope these arguments will
motivate researchers, developers, and policymakers to favor this safer path.Summary
AI-Generated Summary