TRiSM para IA Agéntica: Una Revisión de la Gestión de Confianza, Riesgo y Seguridad en Sistemas Multiagente Basados en Modelos de Lenguaje de Gran Escala

Resumen

Los sistemas de IA agentes, construidos sobre modelos de lenguaje grandes (LLMs) y desplegados en configuraciones multiagente, están redefiniendo la autonomía inteligente, la colaboración y la toma de decisiones en dominios empresariales y sociales. Esta revisión presenta un análisis estructurado de la Gestión de Confianza, Riesgo y Seguridad (TRiSM, por sus siglas en inglés) en el contexto de sistemas multiagente basados en LLMs (AMAS). Comenzamos examinando los fundamentos conceptuales de la IA agente, sus diferencias arquitectónicas con respecto a los agentes de IA tradicionales y los diseños de sistemas emergentes que permiten una autonomía escalable y el uso de herramientas. Luego, se detalla el TRiSM en el marco de la IA agente a través de cuatro pilares: gobernanza, explicabilidad, ModelOps y privacidad/seguridad, cada uno contextualizado para LLMs agentes. Identificamos vectores de amenaza únicos e introducimos una taxonomía integral de riesgos para las aplicaciones de IA agente, respaldada por estudios de caso que ilustran vulnerabilidades del mundo real. Además, el artículo también examina mecanismos de construcción de confianza, técnicas de transparencia y supervisión, y estrategias de explicabilidad de vanguardia en sistemas distribuidos de agentes LLM. Asimismo, se revisan métricas para evaluar la confianza, la interpretabilidad y el rendimiento centrado en el ser humano, junto con los desafíos abiertos en la evaluación comparativa. La seguridad y la privacidad se abordan mediante cifrado, defensa contra adversarios y cumplimiento con las regulaciones de IA en evolución. El artículo concluye con una hoja de ruta para una IA agente responsable, proponiendo direcciones de investigación para alinear los sistemas multiagente emergentes con principios robustos de TRiSM para un despliegue seguro, responsable y transparente.

English

Agentic AI systems, built on large language models (LLMs) and deployed in multi-agent configurations, are redefining intelligent autonomy, collaboration and decision-making across enterprise and societal domains. This review presents a structured analysis of Trust, Risk, and Security Management (TRiSM) in the context of LLM-based agentic multi-agent systems (AMAS). We begin by examining the conceptual foundations of agentic AI, its architectural differences from traditional AI agents, and the emerging system designs that enable scalable, tool-using autonomy. The TRiSM in the agentic AI framework is then detailed through four pillars governance, explainability, ModelOps, and privacy/security each contextualized for agentic LLMs. We identify unique threat vectors and introduce a comprehensive risk taxonomy for the agentic AI applications, supported by case studies illustrating real-world vulnerabilities. Furthermore, the paper also surveys trust-building mechanisms, transparency and oversight techniques, and state-of-the-art explainability strategies in distributed LLM agent systems. Additionally, metrics for evaluating trust, interpretability, and human-centered performance are reviewed alongside open benchmarking challenges. Security and privacy are addressed through encryption, adversarial defense, and compliance with evolving AI regulations. The paper concludes with a roadmap for responsible agentic AI, proposing research directions to align emerging multi-agent systems with robust TRiSM principles for safe, accountable, and transparent deployment.

TRiSM para IA Agéntica: Una Revisión de la Gestión de Confianza, Riesgo y Seguridad en Sistemas Multiagente Basados en Modelos de Lenguaje de Gran Escala

TRiSM for Agentic AI: A Review of Trust, Risk, and Security Management in LLM-based Agentic Multi-Agent Systems

Resumen

Support