Superintelligente Agenten bergen katastrophale Risiken: Kann Wissenschaftler-KI einen sichereren Weg bieten?
Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path?
February 21, 2025
Autoren: Yoshua Bengio, Michael Cohen, Damiano Fornasiere, Joumana Ghosn, Pietro Greiner, Matt MacDermott, Sören Mindermann, Adam Oberman, Jesse Richardson, Oliver Richardson, Marc-Antoine Rondeau, Pierre-Luc St-Charles, David Williams-King
cs.AI
Zusammenfassung
Die führenden KI-Unternehmen konzentrieren sich zunehmend auf die Entwicklung generalistischer KI-Agenten – Systeme, die autonom planen, handeln und Ziele verfolgen können, die nahezu alle Aufgaben umfassen, die Menschen ausführen. Obwohl diese Systeme äußerst nützlich sein könnten, birgt unkontrollierte KI-Agentur erhebliche Risiken für die öffentliche Sicherheit und Sicherheit, die von Missbrauch durch böswillige Akteure bis hin zu einem potenziell irreversiblen Verlust der menschlichen Kontrolle reichen. Wir erörtern, wie diese Risiken aus den derzeitigen KI-Trainingsmethoden entstehen. Tatsächlich haben verschiedene Szenarien und Experimente gezeigt, dass KI-Agenten Täuschung betreiben oder Ziele verfolgen können, die nicht von menschlichen Betreibern spezifiziert wurden und die im Widerspruch zu menschlichen Interessen stehen, wie etwa Selbsterhaltung. Im Einklang mit dem Vorsorgeprinzip sehen wir einen dringenden Bedarf an sichereren, aber dennoch nützlichen Alternativen zur derzeitigen agenturbasierten Entwicklung. Dementsprechend schlagen wir als zentralen Baustein für weitere Fortschritte die Entwicklung eines nicht-agentischen KI-Systems vor, das von Grund auf vertrauenswürdig und sicher ist, das wir als Scientist AI bezeichnen. Dieses System ist darauf ausgelegt, die Welt aus Beobachtungen zu erklären, anstatt in ihr zu handeln, um Menschen nachzuahmen oder zu gefallen. Es besteht aus einem Weltmodell, das Theorien zur Erklärung von Daten generiert, und einer Frage-Antwort-Inferenzmaschine. Beide Komponenten arbeiten mit einem expliziten Konzept der Unsicherheit, um die Risiken übermäßig selbstbewusster Vorhersagen zu mindern. Vor diesem Hintergrund könnte eine Scientist AI dazu verwendet werden, menschliche Forscher bei der Beschleunigung des wissenschaftlichen Fortschritts zu unterstützen, einschließlich der KI-Sicherheit. Insbesondere kann unser System als Schutzmaßnahme gegen KI-Agenten eingesetzt werden, die trotz der damit verbundenen Risiken geschaffen werden könnten. Letztendlich könnte die Konzentration auf nicht-agentische KI die Vorteile der KI-Innovation ermöglichen, während die Risiken im Zusammenhang mit der derzeitigen Entwicklung vermieden werden. Wir hoffen, dass diese Argumente Forscher, Entwickler und politische Entscheidungsträger dazu motivieren werden, diesen sichereren Weg zu bevorzugen.
English
The leading AI companies are increasingly focused on building generalist AI
agents -- systems that can autonomously plan, act, and pursue goals across
almost all tasks that humans can perform. Despite how useful these systems
might be, unchecked AI agency poses significant risks to public safety and
security, ranging from misuse by malicious actors to a potentially irreversible
loss of human control. We discuss how these risks arise from current AI
training methods. Indeed, various scenarios and experiments have demonstrated
the possibility of AI agents engaging in deception or pursuing goals that were
not specified by human operators and that conflict with human interests, such
as self-preservation. Following the precautionary principle, we see a strong
need for safer, yet still useful, alternatives to the current agency-driven
trajectory. Accordingly, we propose as a core building block for further
advances the development of a non-agentic AI system that is trustworthy and
safe by design, which we call Scientist AI. This system is designed to explain
the world from observations, as opposed to taking actions in it to imitate or
please humans. It comprises a world model that generates theories to explain
data and a question-answering inference machine. Both components operate with
an explicit notion of uncertainty to mitigate the risks of overconfident
predictions. In light of these considerations, a Scientist AI could be used to
assist human researchers in accelerating scientific progress, including in AI
safety. In particular, our system can be employed as a guardrail against AI
agents that might be created despite the risks involved. Ultimately, focusing
on non-agentic AI may enable the benefits of AI innovation while avoiding the
risks associated with the current trajectory. We hope these arguments will
motivate researchers, developers, and policymakers to favor this safer path.Summary
AI-Generated Summary