TRiSM для агентного ИИ: Обзор управления доверием, рисками и безопасностью в мультиагентных системах на основе языковых моделей с агентной архитектурой
TRiSM for Agentic AI: A Review of Trust, Risk, and Security Management in LLM-based Agentic Multi-Agent Systems
June 4, 2025
Авторы: Shaina Raza, Ranjan Sapkota, Manoj Karkee, Christos Emmanouilidis
cs.AI
Аннотация
Агентные системы ИИ, построенные на основе крупных языковых моделей (LLM) и развернутые в мультиагентных конфигурациях, переопределяют интеллектуальную автономию, сотрудничество и принятие решений в корпоративных и социальных сферах. В данном обзоре представлен структурированный анализ управления доверием, рисками и безопасностью (TRiSM) в контексте агентных мультиагентных систем (AMAS), основанных на LLM. Мы начинаем с изучения концептуальных основ агентного ИИ, его архитектурных отличий от традиционных агентов ИИ и новых системных решений, обеспечивающих масштабируемую автономию с использованием инструментов. TRiSM в рамках агентного ИИ подробно рассматривается через четыре столпа: управление, объяснимость, ModelOps и конфиденциальность/безопасность, каждый из которых адаптирован для агентных LLM. Мы определяем уникальные векторы угроз и представляем всеобъемлющую таксономию рисков для приложений агентного ИИ, подкрепленную кейсами, иллюстрирующими реальные уязвимости. Кроме того, в статье исследуются механизмы построения доверия, методы обеспечения прозрачности и контроля, а также современные стратегии объяснимости в распределенных системах агентов LLM. Также рассматриваются метрики для оценки доверия, интерпретируемости и ориентированной на человека производительности, наряду с открытыми задачами бенчмаркинга. Безопасность и конфиденциальность рассматриваются через призму шифрования, защиты от атак и соответствия развивающимся нормативным требованиям в области ИИ. Статья завершается дорожной картой для ответственного агентного ИИ, предлагая направления исследований для согласования новых мультиагентных систем с надежными принципами TRiSM для безопасного, подотчетного и прозрачного внедрения.
English
Agentic AI systems, built on large language models (LLMs) and deployed in
multi-agent configurations, are redefining intelligent autonomy, collaboration
and decision-making across enterprise and societal domains. This review
presents a structured analysis of Trust, Risk, and Security Management (TRiSM)
in the context of LLM-based agentic multi-agent systems (AMAS). We begin by
examining the conceptual foundations of agentic AI, its architectural
differences from traditional AI agents, and the emerging system designs that
enable scalable, tool-using autonomy. The TRiSM in the agentic AI framework is
then detailed through four pillars governance, explainability, ModelOps, and
privacy/security each contextualized for agentic LLMs. We identify unique
threat vectors and introduce a comprehensive risk taxonomy for the agentic AI
applications, supported by case studies illustrating real-world
vulnerabilities. Furthermore, the paper also surveys trust-building mechanisms,
transparency and oversight techniques, and state-of-the-art explainability
strategies in distributed LLM agent systems. Additionally, metrics for
evaluating trust, interpretability, and human-centered performance are reviewed
alongside open benchmarking challenges. Security and privacy are addressed
through encryption, adversarial defense, and compliance with evolving AI
regulations. The paper concludes with a roadmap for responsible agentic AI,
proposing research directions to align emerging multi-agent systems with robust
TRiSM principles for safe, accountable, and transparent deployment.