К надежным агентам с графическим интерфейсом: обзор
Towards Trustworthy GUI Agents: A Survey
March 30, 2025
Авторы: Yucheng Shi, Wenhao Yu, Wenlin Yao, Wenhu Chen, Ninghao Liu
cs.AI
Аннотация
Агенты с графическим интерфейсом (GUI), основанные на крупных фундаментальных моделях, способны взаимодействовать с цифровыми интерфейсами, что открывает возможности для различных приложений, таких как автоматизация веб-задач, навигация на мобильных устройствах и тестирование программного обеспечения. Однако их растущая автономность вызывает серьезные опасения в отношении безопасности, конфиденциальности и надежности. В данном обзоре рассматривается доверие к GUI-агентам в пяти ключевых аспектах: уязвимости в безопасности, надежность в динамических средах, прозрачность и объяснимость, этические аспекты и методологии оценки. Мы также выделяем основные проблемы, такие как уязвимость к атакующим воздействиям, каскадные сбои в последовательном принятии решений и отсутствие реалистичных эталонов для оценки. Эти проблемы не только затрудняют внедрение в реальных условиях, но и требуют комплексных стратегий устранения, выходящих за рамки успешного выполнения задач. По мере расширения использования GUI-агентов становится крайне важным установление надежных стандартов безопасности и ответственных практик разработки. Этот обзор закладывает основу для продвижения доверенных GUI-агентов через систематическое понимание и будущие исследования.
English
GUI agents, powered by large foundation models, can interact with digital
interfaces, enabling various applications in web automation, mobile navigation,
and software testing. However, their increasing autonomy has raised critical
concerns about their security, privacy, and safety. This survey examines the
trustworthiness of GUI agents in five critical dimensions: security
vulnerabilities, reliability in dynamic environments, transparency and
explainability, ethical considerations, and evaluation methodologies. We also
identify major challenges such as vulnerability to adversarial attacks,
cascading failure modes in sequential decision-making, and a lack of realistic
evaluation benchmarks. These issues not only hinder real-world deployment but
also call for comprehensive mitigation strategies beyond task success. As GUI
agents become more widespread, establishing robust safety standards and
responsible development practices is essential. This survey provides a
foundation for advancing trustworthy GUI agents through systematic
understanding and future research.Summary
AI-Generated Summary