ChatPaper.aiChatPaper

작업에서 벗어난 행동: 컴퓨터 사용 에이전트의 잘못된 행동 탐지 및 수정

When Actions Go Off-Task: Detecting and Correcting Misaligned Actions in Computer-Use Agents

February 9, 2026
저자: Yuting Ning, Jaylen Jones, Zhehao Zhang, Chentao Ye, Weitong Ruan, Junyi Li, Rahul Gupta, Huan Sun
cs.AI

초록

컴퓨터 사용 에이전트(CUA)는 지난해 큰 진전을 이루었으나 여전히 사용자의 원래 의도에서 벗어나는 잘못된 조치를 빈번히 생성합니다. 이러한 잘못된 조치는 외부 공격(예: 간접 프롬프트 주입)이나 내부적 한계(예: 오류 추론)에서 비롯될 수 있습니다. 이는 CUA의 안전 위험을 초래할 뿐만 아니라 작업 효율성과 신뢰성을 저하시킵니다. 본 연구는 외부적으로 유발된 및 내부적으로 발생하는 잘못된 조치를 포괄적으로 다루며, CUA에서의 잘못된 조치 탐지 문제를 최초로 정의하고 연구합니다. 더 나아가 실제 CUA 배포 환경에서 흔히 나타나는 세 가지 범주를 식별하고, 인간이 주석을 단 행동 수준 정렬 레이블이 달린 현실적 궤적의 벤치마크인 MisActBench를 구축했습니다. 또한 실행 전 잘못된 조치를 탐지하고 구조화된 피드백을 통해 반복적으로 수정하는 실용적이고 보편적인 가드레일인 DeAction을 제안합니다. DeAction은 적절한 지연 오버헤드로 오프라인 및 온라인 평가에서 모든 기존 베이스라인을 능가합니다: (1) MisActBench에서 F1 점수 기준 절대값 15% 이상으로 베이스라인을 크게 앞섰으며, (2) 온라인 평가에서는 적대적 환경에서 공격 성공률을 90% 이상 감소시키면서 양성 환경에서는 작업 성공률을 유지하거나 오히려 향상시켰습니다.
English
Computer-use agents (CUAs) have made tremendous progress in the past year, yet they still frequently produce misaligned actions that deviate from the user's original intent. Such misaligned actions may arise from external attacks (e.g., indirect prompt injection) or from internal limitations (e.g., erroneous reasoning). They not only expose CUAs to safety risks, but also degrade task efficiency and reliability. This work makes the first effort to define and study misaligned action detection in CUAs, with comprehensive coverage of both externally induced and internally arising misaligned actions. We further identify three common categories in real-world CUA deployment and construct MisActBench, a benchmark of realistic trajectories with human-annotated, action-level alignment labels. Moreover, we propose DeAction, a practical and universal guardrail that detects misaligned actions before execution and iteratively corrects them through structured feedback. DeAction outperforms all existing baselines across offline and online evaluations with moderate latency overhead: (1) On MisActBench, it outperforms baselines by over 15% absolute in F1 score; (2) In online evaluation, it reduces attack success rate by over 90% under adversarial settings while preserving or even improving task success rate in benign environments.
PDF21February 13, 2026