SAFEFLOW: Un Protocollo Strutturato per Sistemi di Agenti Autonomi Affidabili e Transazionali
SAFEFLOW: A Principled Protocol for Trustworthy and Transactional Autonomous Agent Systems
June 9, 2025
Autori: Peiran Li, Xinkai Zou, Zhuohang Wu, Ruifeng Li, Shuo Xing, Hanwen Zheng, Zhikai Hu, Yuping Wang, Haoxi Li, Qin Yuan, Yingmo Zhang, Zhengzhong Tu
cs.AI
Abstract
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) e nei modelli visione-linguaggio (VLM) hanno reso possibile la creazione di agenti autonomi potenti, capaci di ragionamento complesso e utilizzo multimodale di strumenti. Nonostante le loro crescenti capacità, i framework per agenti odierni rimangono fragili, privi di meccanismi strutturati per il flusso sicuro delle informazioni, l'affidabilità e il coordinamento multi-agente. In questo lavoro, introduciamo SAFEFLOW, un nuovo framework a livello di protocollo per la costruzione di agenti affidabili basati su LLM/VLM. SAFEFLOW applica un controllo granulare del flusso di informazioni (IFC), monitorando con precisione la provenienza, l'integrità e la riservatezza di tutti i dati scambiati tra agenti, strumenti, utenti e ambienti. Vincolando il ragionamento degli LLM a rispettare queste etichette di sicurezza, SAFEFLOW impedisce che input non attendibili o avversari contaminino decisioni ad alta integrità. Per garantire robustezza in contesti multi-agente concorrenti, SAFEFLOW introduce esecuzione transazionale, risoluzione dei conflitti e pianificazione sicura su stati condivisi, preservando la coerenza globale tra gli agenti. Introduciamo inoltre meccanismi, tra cui logging anticipato, rollback e cache sicure, che migliorano ulteriormente la resilienza contro errori runtime e violazioni delle policy. Per validare le prestazioni, abbiamo creato SAFEFLOWBENCH, una suite di benchmark completa progettata per valutare l'affidabilità degli agenti in condizioni operative avverse, rumorose e concorrenti. Esperimenti estensivi dimostrano che gli agenti costruiti con SAFEFLOW mantengono prestazioni impressionanti nelle attività e garanzie di sicurezza anche in ambienti ostili, superando significativamente lo stato dell'arte. Insieme, SAFEFLOW e SAFEFLOWBENCH gettano le basi per ecosistemi di agenti strutturati, robusti e sicuri, avanzando la frontiera dell'autonomia affidabile.
English
Recent advances in large language models (LLMs) and vision-language models
(VLMs) have enabled powerful autonomous agents capable of complex reasoning and
multi-modal tool use. Despite their growing capabilities, today's agent
frameworks remain fragile, lacking principled mechanisms for secure information
flow, reliability, and multi-agent coordination. In this work, we introduce
SAFEFLOW, a new protocol-level framework for building trustworthy LLM/VLM-based
agents. SAFEFLOW enforces fine-grained information flow control (IFC),
precisely tracking provenance, integrity, and confidentiality of all the data
exchanged between agents, tools, users, and environments. By constraining LLM
reasoning to respect these security labels, SAFEFLOW prevents untrusted or
adversarial inputs from contaminating high-integrity decisions. To ensure
robustness in concurrent multi-agent settings, SAFEFLOW introduces
transactional execution, conflict resolution, and secure scheduling over shared
state, preserving global consistency across agents. We further introduce
mechanisms, including write-ahead logging, rollback, and secure caches, that
further enhance resilience against runtime errors and policy violations. To
validate the performances, we built SAFEFLOWBENCH, a comprehensive benchmark
suite designed to evaluate agent reliability under adversarial, noisy, and
concurrent operational conditions. Extensive experiments demonstrate that
agents built with SAFEFLOW maintain impressive task performance and security
guarantees even in hostile environments, substantially outperforming
state-of-the-art. Together, SAFEFLOW and SAFEFLOWBENCH lay the groundwork for
principled, robust, and secure agent ecosystems, advancing the frontier of
reliable autonomy.