Quando as Ações Saem do Roteiro: Detecção e Correção de Ações Desalinhadas em Agentes de Uso de Computador

Resumo

Os agentes de uso computacional (CUAs) têm feito progressos extraordinários no último ano, mas ainda produzem frequentemente ações desalinhadas que se desviam da intenção original do utilizador. Tais ações desalinhadas podem surgir de ataques externos (por exemplo, injeção indireta de instruções) ou de limitações internas (por exemplo, raciocínio erróneo). Elas não só expõem os CUAs a riscos de segurança, como também degradam a eficiência e a fiabilidade das tarefas. Este trabalho faz o primeiro esforço para definir e estudar a deteção de ações desalinhadas em CUAs, com uma cobertura abrangente de ações desalinhadas induzidas externamente e surgidas internamente. Identificamos ainda três categorias comuns na implementação de CUAs no mundo real e construímos o MisActBench, um benchmark de trajetórias realistas com rótulos de alinhamento a nível de ação, anotados por humanos. Além disso, propomos o DeAction, um guardrail prático e universal que deteta ações desalinhadas antes da execução e as corrige iterativamente através de feedback estruturado. O DeAction supera todas as linhas de base existentes em avaliações offline e online com sobrecarga de latência moderada: (1) No MisActBench, supera as linhas de base em mais de 15% absolutos no score F1; (2) Na avaliação online, reduz a taxa de sucesso de ataques em mais de 90% em ambientes adversariais, preservando ou mesmo melhorando a taxa de sucesso de tarefas em ambientes benignos.

English

Computer-use agents (CUAs) have made tremendous progress in the past year, yet they still frequently produce misaligned actions that deviate from the user's original intent. Such misaligned actions may arise from external attacks (e.g., indirect prompt injection) or from internal limitations (e.g., erroneous reasoning). They not only expose CUAs to safety risks, but also degrade task efficiency and reliability. This work makes the first effort to define and study misaligned action detection in CUAs, with comprehensive coverage of both externally induced and internally arising misaligned actions. We further identify three common categories in real-world CUA deployment and construct MisActBench, a benchmark of realistic trajectories with human-annotated, action-level alignment labels. Moreover, we propose DeAction, a practical and universal guardrail that detects misaligned actions before execution and iteratively corrects them through structured feedback. DeAction outperforms all existing baselines across offline and online evaluations with moderate latency overhead: (1) On MisActBench, it outperforms baselines by over 15% absolute in F1 score; (2) In online evaluation, it reduces attack success rate by over 90% under adversarial settings while preserving or even improving task success rate in benign environments.

Quando as Ações Saem do Roteiro: Detecção e Correção de Ações Desalinhadas em Agentes de Uso de Computador

When Actions Go Off-Task: Detecting and Correcting Misaligned Actions in Computer-Use Agents

Resumo

Support