AgentHijack: Avaliando a Robustez de Agentes de Uso de Computador a Corrupções Comuns de Ambiente

Resumo

Agentes autônomos de uso de computador, impulsionados por modelos de linguagem grandes multimodais (MLLMs), estão emergindo como assistentes capazes para concluir fluxos de trabalho digitais complexos. No entanto, ambientes de execução do mundo real estão longe do ideal: pop-ups, mudanças de resolução e aplicativos concorrentes frequentemente interferem na percepção e no controle do agente. Apresentamos o AgentHijack, um benchmark projetado para avaliar a robustez de agentes de uso de computador sob corrupções comuns, onde as incertezas em ambientes dinâmicos interrompem o fluxo de execução sem intenção adversarial direta. Especificamente, o AgentHijack introduz 9 corrupções comuns configuráveis para replicar cenários imperfeitos realistas. Avaliamos uma variedade de tarefas de desktop que utilizam agentes baseados em MLLM e descobrimos que mesmo instâncias menores de corrupção podem resultar em degradação substancial de desempenho, o que enfatiza a fragilidade dos agentes e ressalta a necessidade de avaliação de robustez. Em seguida, propomos o AgentHijack-Agent, uma estrutura que integra um gerador de ações com capacidades aprimoradas de fundamentação e um observador responsável pela sumarização de comportamento e verificação do ambiente. Experimentos extensos validam sua eficácia. Nosso código, ambiente, modelos de base e dados estão publicamente disponíveis em: https://AgentHijack.github.io.

English

Autonomous computer use agents that powered by multimodal large language models (MLLMs) are emerging as capable assistants for completing complex digital workflows. However, real-world execution environments are far from ideal: pop-ups, resolution changes, and competing applications frequently interfere with agent perception and control. We introduce AgentHijack, a benchmark designed to evaluate the robustness of computer-use agents under common corruptions, where the uncertainties in dynamic environment disrupt the execution flow without direct adversarial intent. Specifically, AgentHijack introduces 9 configurable common corruptions to replicate realistic imperfect scenarios. We evaluate a variety of desktop tasks that utilize MLLM-based agents and discover that even minor instances of corruption can result in substantial performance degradation, which emphasizes the fragility of agents and underscores the necessity of robustness evaluation. Afterward, we propose AgentHijack-Agent, a framework that integrates an action generator with enhanced grounding capabilities and an onlooker responsible for behavior summarization and environment checking. Extensive experiments validate its effectiveness. Our code, environment, baseline models and data are publicly available at: https://AgentHijack.github.io.