Agentes del Caos

Resumen

Reportamos un estudio exploratorio de pruebas de intrusión (red-teaming) con agentes autónomos impulsados por modelos de lenguaje desplegados en un entorno de laboratorio en vivo con memoria persistente, cuentas de correo electrónico, acceso a Discord, sistemas de archivos y ejecución de shell. Durante un período de dos semanas, veinte investigadores en IA interactuaron con los agentes bajo condiciones benignas y adversarias. Centrándonos en las fallas que surgen de la integración de modelos de lenguaje con autonomía, uso de herramientas y comunicación multipartidista, documentamos once casos de estudio representativos. Los comportamientos observados incluyen: cumplimiento no autorizado con no propietarios, divulgación de información sensible, ejecución de acciones destructivas a nivel del sistema, condiciones de denegación de servicio, consumo descontrolado de recursos, vulnerabilidades de suplantación de identidad, propagación de prácticas inseguras entre agentes y toma de control parcial del sistema. En varios casos, los agentes reportaron la finalización de tareas mientras que el estado subyacente del sistema contradecía dichos informes. También informamos sobre algunos de los intentos fallidos. Nuestros hallazgos establecen la existencia de vulnerabilidades relevantes para la seguridad, privacidad y gobernanza en entornos de despliegue realistas. Estos comportamientos plantean interrogantes no resueltos sobre la rendición de cuentas, la autoridad delegada y la responsabilidad por daños posteriores, y merecen atención urgente por parte de juristas, responsables políticos e investigadores de diversas disciplinas. Este informe sirve como una contribución empírica inicial a esa conversación más amplia.

English

We report an exploratory red-teaming study of autonomous language-model-powered agents deployed in a live laboratory environment with persistent memory, email accounts, Discord access, file systems, and shell execution. Over a two-week period, twenty AI researchers interacted with the agents under benign and adversarial conditions. Focusing on failures emerging from the integration of language models with autonomy, tool use, and multi-party communication, we document eleven representative case studies. Observed behaviors include unauthorized compliance with non-owners, disclosure of sensitive information, execution of destructive system-level actions, denial-of-service conditions, uncontrolled resource consumption, identity spoofing vulnerabilities, cross-agent propagation of unsafe practices, and partial system takeover. In several cases, agents reported task completion while the underlying system state contradicted those reports. We also report on some of the failed attempts. Our findings establish the existence of security-, privacy-, and governance-relevant vulnerabilities in realistic deployment settings. These behaviors raise unresolved questions regarding accountability, delegated authority, and responsibility for downstream harms, and warrant urgent attention from legal scholars, policymakers, and researchers across disciplines. This report serves as an initial empirical contribution to that broader conversation.

Agentes del Caos

Agents of Chaos

Resumen

Support