Los agentes superinteligentes representan riesgos catastróficos: ¿Puede la IA científica ofrecer un camino más seguro?
Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path?
February 21, 2025
Autores: Yoshua Bengio, Michael Cohen, Damiano Fornasiere, Joumana Ghosn, Pietro Greiner, Matt MacDermott, Sören Mindermann, Adam Oberman, Jesse Richardson, Oliver Richardson, Marc-Antoine Rondeau, Pierre-Luc St-Charles, David Williams-King
cs.AI
Resumen
Las principales empresas de IA están cada vez más enfocadas en construir agentes de IA generalistas: sistemas que puedan planificar, actuar y perseguir objetivos de manera autónoma en casi todas las tareas que los humanos pueden realizar. A pesar de lo útiles que estos sistemas podrían ser, la agencia de IA sin control plantea riesgos significativos para la seguridad pública y la protección, que van desde el uso indebido por parte de actores maliciosos hasta una pérdida potencialmente irreversible del control humano. Discutimos cómo estos riesgos surgen de los métodos actuales de entrenamiento de IA. De hecho, diversos escenarios y experimentos han demostrado la posibilidad de que los agentes de IA se involucren en engaños o persigan objetivos no especificados por los operadores humanos y que entran en conflicto con los intereses humanos, como la autopreservación. Siguiendo el principio de precaución, vemos una fuerte necesidad de alternativas más seguras, pero aún útiles, a la trayectoria actual impulsada por la agencia. En consecuencia, proponemos como un componente fundamental para avances futuros el desarrollo de un sistema de IA no agéntico que sea confiable y seguro por diseño, al que llamamos Científico IA. Este sistema está diseñado para explicar el mundo a partir de observaciones, en lugar de tomar acciones en él para imitar o complacer a los humanos. Consta de un modelo del mundo que genera teorías para explicar los datos y una máquina de inferencia de preguntas y respuestas. Ambos componentes operan con una noción explícita de incertidumbre para mitigar los riesgos de predicciones demasiado confiadas. A la luz de estas consideraciones, un Científico IA podría usarse para ayudar a los investigadores humanos a acelerar el progreso científico, incluso en la seguridad de la IA. En particular, nuestro sistema puede emplearse como una barrera de protección contra agentes de IA que podrían crearse a pesar de los riesgos involucrados. En última instancia, enfocarse en la IA no agéntica podría permitir los beneficios de la innovación en IA mientras se evitan los riesgos asociados con la trayectoria actual. Esperamos que estos argumentos motiven a investigadores, desarrolladores y responsables políticos a favorecer este camino más seguro.
English
The leading AI companies are increasingly focused on building generalist AI
agents -- systems that can autonomously plan, act, and pursue goals across
almost all tasks that humans can perform. Despite how useful these systems
might be, unchecked AI agency poses significant risks to public safety and
security, ranging from misuse by malicious actors to a potentially irreversible
loss of human control. We discuss how these risks arise from current AI
training methods. Indeed, various scenarios and experiments have demonstrated
the possibility of AI agents engaging in deception or pursuing goals that were
not specified by human operators and that conflict with human interests, such
as self-preservation. Following the precautionary principle, we see a strong
need for safer, yet still useful, alternatives to the current agency-driven
trajectory. Accordingly, we propose as a core building block for further
advances the development of a non-agentic AI system that is trustworthy and
safe by design, which we call Scientist AI. This system is designed to explain
the world from observations, as opposed to taking actions in it to imitate or
please humans. It comprises a world model that generates theories to explain
data and a question-answering inference machine. Both components operate with
an explicit notion of uncertainty to mitigate the risks of overconfident
predictions. In light of these considerations, a Scientist AI could be used to
assist human researchers in accelerating scientific progress, including in AI
safety. In particular, our system can be employed as a guardrail against AI
agents that might be created despite the risks involved. Ultimately, focusing
on non-agentic AI may enable the benefits of AI innovation while avoiding the
risks associated with the current trajectory. We hope these arguments will
motivate researchers, developers, and policymakers to favor this safer path.Summary
AI-Generated Summary