TRiSM para IA Agéntica: Una Revisión de la Gestión de Confianza, Riesgo y Seguridad en Sistemas Multiagente Basados en Modelos de Lenguaje de Gran Escala
TRiSM for Agentic AI: A Review of Trust, Risk, and Security Management in LLM-based Agentic Multi-Agent Systems
June 4, 2025
Autores: Shaina Raza, Ranjan Sapkota, Manoj Karkee, Christos Emmanouilidis
cs.AI
Resumen
Los sistemas de IA agentes, construidos sobre modelos de lenguaje grandes (LLMs) y desplegados en configuraciones multiagente, están redefiniendo la autonomía inteligente, la colaboración y la toma de decisiones en dominios empresariales y sociales. Esta revisión presenta un análisis estructurado de la Gestión de Confianza, Riesgo y Seguridad (TRiSM, por sus siglas en inglés) en el contexto de sistemas multiagente basados en LLMs (AMAS). Comenzamos examinando los fundamentos conceptuales de la IA agente, sus diferencias arquitectónicas con respecto a los agentes de IA tradicionales y los diseños de sistemas emergentes que permiten una autonomía escalable y el uso de herramientas. Luego, se detalla el TRiSM en el marco de la IA agente a través de cuatro pilares: gobernanza, explicabilidad, ModelOps y privacidad/seguridad, cada uno contextualizado para LLMs agentes. Identificamos vectores de amenaza únicos e introducimos una taxonomía integral de riesgos para las aplicaciones de IA agente, respaldada por estudios de caso que ilustran vulnerabilidades del mundo real. Además, el artículo también examina mecanismos de construcción de confianza, técnicas de transparencia y supervisión, y estrategias de explicabilidad de vanguardia en sistemas distribuidos de agentes LLM. Asimismo, se revisan métricas para evaluar la confianza, la interpretabilidad y el rendimiento centrado en el ser humano, junto con los desafíos abiertos en la evaluación comparativa. La seguridad y la privacidad se abordan mediante cifrado, defensa contra adversarios y cumplimiento con las regulaciones de IA en evolución. El artículo concluye con una hoja de ruta para una IA agente responsable, proponiendo direcciones de investigación para alinear los sistemas multiagente emergentes con principios robustos de TRiSM para un despliegue seguro, responsable y transparente.
English
Agentic AI systems, built on large language models (LLMs) and deployed in
multi-agent configurations, are redefining intelligent autonomy, collaboration
and decision-making across enterprise and societal domains. This review
presents a structured analysis of Trust, Risk, and Security Management (TRiSM)
in the context of LLM-based agentic multi-agent systems (AMAS). We begin by
examining the conceptual foundations of agentic AI, its architectural
differences from traditional AI agents, and the emerging system designs that
enable scalable, tool-using autonomy. The TRiSM in the agentic AI framework is
then detailed through four pillars governance, explainability, ModelOps, and
privacy/security each contextualized for agentic LLMs. We identify unique
threat vectors and introduce a comprehensive risk taxonomy for the agentic AI
applications, supported by case studies illustrating real-world
vulnerabilities. Furthermore, the paper also surveys trust-building mechanisms,
transparency and oversight techniques, and state-of-the-art explainability
strategies in distributed LLM agent systems. Additionally, metrics for
evaluating trust, interpretability, and human-centered performance are reviewed
alongside open benchmarking challenges. Security and privacy are addressed
through encryption, adversarial defense, and compliance with evolving AI
regulations. The paper concludes with a roadmap for responsible agentic AI,
proposing research directions to align emerging multi-agent systems with robust
TRiSM principles for safe, accountable, and transparent deployment.