SAFEFLOW: Принципиальный протокол для надежных и транзакционных систем автономных агентов
SAFEFLOW: A Principled Protocol for Trustworthy and Transactional Autonomous Agent Systems
June 9, 2025
Авторы: Peiran Li, Xinkai Zou, Zhuohang Wu, Ruifeng Li, Shuo Xing, Hanwen Zheng, Zhikai Hu, Yuping Wang, Haoxi Li, Qin Yuan, Yingmo Zhang, Zhengzhong Tu
cs.AI
Аннотация
Последние достижения в области крупных языковых моделей (LLM) и моделей, объединяющих зрение и язык (VLM), позволили создать мощные автономные агенты, способные к сложным рассуждениям и использованию мультимодальных инструментов. Несмотря на растущие возможности, современные фреймворки для агентов остаются хрупкими, не имея принципиальных механизмов для обеспечения безопасного потока информации, надежности и координации между несколькими агентами. В данной работе мы представляем SAFEFLOW — новый фреймворк на уровне протокола для создания доверенных агентов на основе LLM/VLM. SAFEFLOW обеспечивает детализированный контроль потока информации (IFC), точно отслеживая происхождение, целостность и конфиденциальность всех данных, передаваемых между агентами, инструментами, пользователями и окружением. Ограничивая рассуждения LLM в соответствии с этими метками безопасности, SAFEFLOW предотвращает загрязнение решений с высокой целостностью недоверенными или враждебными входными данными. Для обеспечения устойчивости в условиях одновременной работы нескольких агентов SAFEFLOW вводит транзакционное выполнение, разрешение конфликтов и безопасное планирование над общим состоянием, сохраняя глобальную согласованность между агентами. Мы также представляем механизмы, включая предварительное журналирование, откат и безопасные кэши, которые дополнительно повышают устойчивость к ошибкам времени выполнения и нарушениям политик. Для проверки производительности мы создали SAFEFLOWBENCH — комплексный набор тестов, предназначенный для оценки надежности агентов в условиях враждебных, зашумленных и конкурентных операционных сценариев. Многочисленные эксперименты демонстрируют, что агенты, построенные с использованием SAFEFLOW, сохраняют впечатляющую производительность и гарантии безопасности даже в неблагоприятных условиях, значительно превосходя современные аналоги. Вместе SAFEFLOW и SAFEFLOWBENCH закладывают основу для принципиально надежных и безопасных экосистем агентов, продвигая границы надежной автономии.
English
Recent advances in large language models (LLMs) and vision-language models
(VLMs) have enabled powerful autonomous agents capable of complex reasoning and
multi-modal tool use. Despite their growing capabilities, today's agent
frameworks remain fragile, lacking principled mechanisms for secure information
flow, reliability, and multi-agent coordination. In this work, we introduce
SAFEFLOW, a new protocol-level framework for building trustworthy LLM/VLM-based
agents. SAFEFLOW enforces fine-grained information flow control (IFC),
precisely tracking provenance, integrity, and confidentiality of all the data
exchanged between agents, tools, users, and environments. By constraining LLM
reasoning to respect these security labels, SAFEFLOW prevents untrusted or
adversarial inputs from contaminating high-integrity decisions. To ensure
robustness in concurrent multi-agent settings, SAFEFLOW introduces
transactional execution, conflict resolution, and secure scheduling over shared
state, preserving global consistency across agents. We further introduce
mechanisms, including write-ahead logging, rollback, and secure caches, that
further enhance resilience against runtime errors and policy violations. To
validate the performances, we built SAFEFLOWBENCH, a comprehensive benchmark
suite designed to evaluate agent reliability under adversarial, noisy, and
concurrent operational conditions. Extensive experiments demonstrate that
agents built with SAFEFLOW maintain impressive task performance and security
guarantees even in hostile environments, substantially outperforming
state-of-the-art. Together, SAFEFLOW and SAFEFLOWBENCH lay the groundwork for
principled, robust, and secure agent ecosystems, advancing the frontier of
reliable autonomy.