Agenten des Chaos

Zusammenfassung

Wir berichten über eine explorative Red-Teaming-Studie autonomer, sprachmodellgesteuerter Agenten, die in einer Live-Laborenumgebung mit persistentem Speicher, E-Mail-Konten, Discord-Zugriff, Dateisystemen und Shell-Ausführung eingesetzt wurden. Über einen Zeitraum von zwei Wochen interagierten zwanzig KI-Forscher mit den Agenten unter benignen und adversarischen Bedingungen. Mit Fokus auf Fehler, die aus der Integration von Sprachmodellen mit Autonomie, Werkzeugnutzung und Multi-Party-Kommunikation entstehen, dokumentieren wir elf repräsentative Fallstudien. Beobachtete Verhaltensweisen umfassen unbefugte Befolgung von Anweisungen Nicht-Berechtigter, Preisgabe sensibler Informationen, Ausführung destruktiver Systemaktionen, Denial-of-Service-Zustände, unkontrollierten Ressourcenverbrauch, Identitätsspoofing-Schwachstellen, cross-agenten Verbreitung unsicherer Praktiken und partielle Systemübernahmen. In mehreren Fällen meldeten Agenten Aufgabenabschlüsse, während der zugrundeliegende Systemzustand diesen Meldungen widersprach. Wir berichten auch über einige gescheiterte Versuche. Unsere Ergebnisse belegen die Existenz von sicherheits-, privatsphären- und governance-relevanten Schwachstellen in realistischen Einsatzszenarien. Diese Verhaltensweisen werfen ungelöste Fragen bezüglich Rechenschaftspflicht, delegierter Autorität und Verantwortung für nachgelagerte Schäden auf und erfordern dringende Aufmerksamkeit von Rechtswissenschaftlern, politischen Entscheidungsträgern und Forschern verschiedener Disziplinen. Dieser Bericht leistet einen ersten empirischen Beitrag zu dieser breiteren Diskussion.

English

We report an exploratory red-teaming study of autonomous language-model-powered agents deployed in a live laboratory environment with persistent memory, email accounts, Discord access, file systems, and shell execution. Over a two-week period, twenty AI researchers interacted with the agents under benign and adversarial conditions. Focusing on failures emerging from the integration of language models with autonomy, tool use, and multi-party communication, we document eleven representative case studies. Observed behaviors include unauthorized compliance with non-owners, disclosure of sensitive information, execution of destructive system-level actions, denial-of-service conditions, uncontrolled resource consumption, identity spoofing vulnerabilities, cross-agent propagation of unsafe practices, and partial system takeover. In several cases, agents reported task completion while the underlying system state contradicted those reports. We also report on some of the failed attempts. Our findings establish the existence of security-, privacy-, and governance-relevant vulnerabilities in realistic deployment settings. These behaviors raise unresolved questions regarding accountability, delegated authority, and responsibility for downstream harms, and warrant urgent attention from legal scholars, policymakers, and researchers across disciplines. This report serves as an initial empirical contribution to that broader conversation.

Agenten des Chaos

Agents of Chaos

Zusammenfassung

Support