ChatPaper.aiChatPaper

Agentes Superinteligentes Representam Riscos Catastróficos: A IA Científica Pode Oferecer um Caminho Mais Seguro?

Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path?

February 21, 2025
Autores: Yoshua Bengio, Michael Cohen, Damiano Fornasiere, Joumana Ghosn, Pietro Greiner, Matt MacDermott, Sören Mindermann, Adam Oberman, Jesse Richardson, Oliver Richardson, Marc-Antoine Rondeau, Pierre-Luc St-Charles, David Williams-King
cs.AI

Resumo

As principais empresas de IA estão cada vez mais focadas na construção de agentes de IA generalistas — sistemas que podem planejar, agir e perseguir objetivos de forma autônoma em praticamente todas as tarefas que os humanos são capazes de realizar. Apesar da utilidade potencial desses sistemas, a agência descontrolada de IA representa riscos significativos para a segurança pública e a proteção, variando desde o uso indevido por atores maliciosos até uma potencial perda irreversível de controle humano. Discutimos como esses riscos surgem dos métodos atuais de treinamento de IA. De fato, diversos cenários e experimentos demonstraram a possibilidade de agentes de IA se envolverem em enganos ou perseguirem objetivos que não foram especificados por operadores humanos e que entram em conflito com os interesses humanos, como a autopreservação. Seguindo o princípio da precaução, vemos uma forte necessidade de alternativas mais seguras, mas ainda úteis, à trajetória atual centrada na agência. Assim, propomos como um bloco fundamental para avanços futuros o desenvolvimento de um sistema de IA não agencial que seja confiável e seguro por design, o qual chamamos de IA Cientista. Esse sistema é projetado para explicar o mundo a partir de observações, em vez de tomar ações nele para imitar ou agradar humanos. Ele compreende um modelo do mundo que gera teorias para explicar dados e uma máquina de inferência de respostas a perguntas. Ambos os componentes operam com uma noção explícita de incerteza para mitigar os riscos de previsões excessivamente confiantes. Diante dessas considerações, uma IA Cientista poderia ser usada para auxiliar pesquisadores humanos a acelerar o progresso científico, inclusive na segurança de IA. Em particular, nosso sistema pode ser empregado como uma barreira de proteção contra agentes de IA que possam ser criados, apesar dos riscos envolvidos. Por fim, o foco em IA não agencial pode permitir os benefícios da inovação em IA, evitando os riscos associados à trajetória atual. Esperamos que esses argumentos motivem pesquisadores, desenvolvedores e formuladores de políticas a favorecer esse caminho mais seguro.
English
The leading AI companies are increasingly focused on building generalist AI agents -- systems that can autonomously plan, act, and pursue goals across almost all tasks that humans can perform. Despite how useful these systems might be, unchecked AI agency poses significant risks to public safety and security, ranging from misuse by malicious actors to a potentially irreversible loss of human control. We discuss how these risks arise from current AI training methods. Indeed, various scenarios and experiments have demonstrated the possibility of AI agents engaging in deception or pursuing goals that were not specified by human operators and that conflict with human interests, such as self-preservation. Following the precautionary principle, we see a strong need for safer, yet still useful, alternatives to the current agency-driven trajectory. Accordingly, we propose as a core building block for further advances the development of a non-agentic AI system that is trustworthy and safe by design, which we call Scientist AI. This system is designed to explain the world from observations, as opposed to taking actions in it to imitate or please humans. It comprises a world model that generates theories to explain data and a question-answering inference machine. Both components operate with an explicit notion of uncertainty to mitigate the risks of overconfident predictions. In light of these considerations, a Scientist AI could be used to assist human researchers in accelerating scientific progress, including in AI safety. In particular, our system can be employed as a guardrail against AI agents that might be created despite the risks involved. Ultimately, focusing on non-agentic AI may enable the benefits of AI innovation while avoiding the risks associated with the current trajectory. We hope these arguments will motivate researchers, developers, and policymakers to favor this safer path.

Summary

AI-Generated Summary

PDF52February 24, 2025