SAFEFLOW: Een Princiepvol Protocol voor Betrouwbare en Transactionele Autonome Agentsystemen
SAFEFLOW: A Principled Protocol for Trustworthy and Transactional Autonomous Agent Systems
June 9, 2025
Auteurs: Peiran Li, Xinkai Zou, Zhuohang Wu, Ruifeng Li, Shuo Xing, Hanwen Zheng, Zhikai Hu, Yuping Wang, Haoxi Li, Qin Yuan, Yingmo Zhang, Zhengzhong Tu
cs.AI
Samenvatting
Recente ontwikkelingen in grote taalmodellen (LLMs) en visueel-taalkundige modellen (VLMs) hebben krachtige autonome agents mogelijk gemaakt die in staat zijn tot complex redeneren en het gebruik van multimodale tools. Ondanks hun toenemende mogelijkheden blijven de huidige agentframeworks kwetsbaar, waarbij ze gebrek hebben aan principiële mechanismen voor veilige informatiestromen, betrouwbaarheid en multi-agentcoördinatie. In dit werk introduceren we SAFEFLOW, een nieuw protocol-level framework voor het bouwen van betrouwbare LLM/VLM-gebaseerde agents. SAFEFLOW handhaaft fijnmazige controle over informatiestromen (IFC), waarbij het precies de herkomst, integriteit en vertrouwelijkheid van alle gegevens die tussen agents, tools, gebruikers en omgevingen worden uitgewisseld, bijhoudt. Door het redeneren van LLMs te beperken om deze beveiligingslabels te respecteren, voorkomt SAFEFLOW dat niet-vertrouwde of kwaadwillige invoer beslissingen met hoge integriteit verontreinigt. Om robuustheid in gelijktijdige multi-agentomgevingen te waarborgen, introduceert SAFEFLOW transactionele uitvoering, conflictoplossing en veilige planning over gedeelde toestanden, waardoor globale consistentie tussen agents behouden blijft. We introduceren verder mechanismen, waaronder write-ahead logging, rollback en veilige caches, die de veerkracht tegen runtime-fouten en beleidsschendingen verder versterken. Om de prestaties te valideren, hebben we SAFEFLOWBENCH gebouwd, een uitgebreide benchmark suite ontworpen om de betrouwbaarheid van agents te evalueren onder vijandige, lawaaierige en gelijktijdige operationele omstandigheden. Uitgebreide experimenten tonen aan dat agents gebouwd met SAFEFLOW indrukwekkende taakprestaties en beveiligingsgaranties behouden, zelfs in vijandige omgevingen, en daarbij de state-of-the-art aanzienlijk overtreffen. Samen leggen SAFEFLOW en SAFEFLOWBENCH de basis voor principiële, robuuste en veilige agentecosystemen, waarmee de grens van betrouwbare autonomie wordt verlegd.
English
Recent advances in large language models (LLMs) and vision-language models
(VLMs) have enabled powerful autonomous agents capable of complex reasoning and
multi-modal tool use. Despite their growing capabilities, today's agent
frameworks remain fragile, lacking principled mechanisms for secure information
flow, reliability, and multi-agent coordination. In this work, we introduce
SAFEFLOW, a new protocol-level framework for building trustworthy LLM/VLM-based
agents. SAFEFLOW enforces fine-grained information flow control (IFC),
precisely tracking provenance, integrity, and confidentiality of all the data
exchanged between agents, tools, users, and environments. By constraining LLM
reasoning to respect these security labels, SAFEFLOW prevents untrusted or
adversarial inputs from contaminating high-integrity decisions. To ensure
robustness in concurrent multi-agent settings, SAFEFLOW introduces
transactional execution, conflict resolution, and secure scheduling over shared
state, preserving global consistency across agents. We further introduce
mechanisms, including write-ahead logging, rollback, and secure caches, that
further enhance resilience against runtime errors and policy violations. To
validate the performances, we built SAFEFLOWBENCH, a comprehensive benchmark
suite designed to evaluate agent reliability under adversarial, noisy, and
concurrent operational conditions. Extensive experiments demonstrate that
agents built with SAFEFLOW maintain impressive task performance and security
guarantees even in hostile environments, substantially outperforming
state-of-the-art. Together, SAFEFLOW and SAFEFLOWBENCH lay the groundwork for
principled, robust, and secure agent ecosystems, advancing the frontier of
reliable autonomy.