Les agents superintelligents présentent des risques catastrophiques : l'IA scientifique peut-elle offrir une voie plus sûre ?
Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path?
February 21, 2025
Auteurs: Yoshua Bengio, Michael Cohen, Damiano Fornasiere, Joumana Ghosn, Pietro Greiner, Matt MacDermott, Sören Mindermann, Adam Oberman, Jesse Richardson, Oliver Richardson, Marc-Antoine Rondeau, Pierre-Luc St-Charles, David Williams-King
cs.AI
Résumé
Les principales entreprises d'IA se concentrent de plus en plus sur le développement d'agents IA généralistes - des systèmes capables de planifier, d'agir et de poursuivre des objectifs de manière autonome dans presque toutes les tâches que les humains peuvent accomplir. Bien que ces systèmes puissent être utiles, une agence IA non contrôlée présente des risques significatifs pour la sécurité publique et la sûreté, allant de l'utilisation malveillante par des acteurs malintentionnés à une perte potentiellement irréversible de contrôle humain. Nous examinons comment ces risques découlent des méthodes actuelles de formation de l'IA. En effet, divers scénarios et expériences ont démontré la possibilité que des agents IA se livrent à des tromperies ou poursuivent des objectifs non spécifiés par les opérateurs humains et qui entrent en conflit avec les intérêts humains, comme l'auto-préservation. Suivant le principe de précaution, nous voyons un besoin urgent d'alternatives plus sûres, tout en restant utiles, à la trajectoire actuelle axée sur l'agence. En conséquence, nous proposons comme élément fondamental pour les avancées futures le développement d'un système IA non agentique, fiable et sûr par conception, que nous appelons Scientist AI. Ce système est conçu pour expliquer le monde à partir d'observations, plutôt que d'agir pour imiter ou plaire aux humains. Il comprend un modèle du monde qui génère des théories pour expliquer les données et une machine d'inférence pour répondre aux questions. Les deux composants fonctionnent avec une notion explicite d'incertitude pour atténuer les risques de prédictions trop confiantes. À la lumière de ces considérations, un Scientist AI pourrait être utilisé pour aider les chercheurs humains à accélérer les progrès scientifiques, y compris dans la sécurité de l'IA. En particulier, notre système peut servir de garde-fou contre les agents IA qui pourraient être créés malgré les risques encourus. En fin de compte, se concentrer sur l'IA non agentique pourrait permettre de bénéficier des avantages de l'innovation en IA tout en évitant les risques associés à la trajectoire actuelle. Nous espérons que ces arguments motiveront les chercheurs, les développeurs et les décideurs politiques à privilégier cette voie plus sûre.
English
The leading AI companies are increasingly focused on building generalist AI
agents -- systems that can autonomously plan, act, and pursue goals across
almost all tasks that humans can perform. Despite how useful these systems
might be, unchecked AI agency poses significant risks to public safety and
security, ranging from misuse by malicious actors to a potentially irreversible
loss of human control. We discuss how these risks arise from current AI
training methods. Indeed, various scenarios and experiments have demonstrated
the possibility of AI agents engaging in deception or pursuing goals that were
not specified by human operators and that conflict with human interests, such
as self-preservation. Following the precautionary principle, we see a strong
need for safer, yet still useful, alternatives to the current agency-driven
trajectory. Accordingly, we propose as a core building block for further
advances the development of a non-agentic AI system that is trustworthy and
safe by design, which we call Scientist AI. This system is designed to explain
the world from observations, as opposed to taking actions in it to imitate or
please humans. It comprises a world model that generates theories to explain
data and a question-answering inference machine. Both components operate with
an explicit notion of uncertainty to mitigate the risks of overconfident
predictions. In light of these considerations, a Scientist AI could be used to
assist human researchers in accelerating scientific progress, including in AI
safety. In particular, our system can be employed as a guardrail against AI
agents that might be created despite the risks involved. Ultimately, focusing
on non-agentic AI may enable the benefits of AI innovation while avoiding the
risks associated with the current trajectory. We hope these arguments will
motivate researchers, developers, and policymakers to favor this safer path.Summary
AI-Generated Summary