ChatPaper.aiChatPaper

VLAA-GUI: 중단, 복구, 탐색 시점을 아는 GUI 자동화를 위한 모듈형 프레임워크

VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation

April 23, 2026
저자: Qijun Han, Haoqin Tu, Zijun Wang, Haoyue Dai, Yiyang Zhou, Nancy Lau, Alvaro A. Cardenas, Yuhui Xu, Ran Xu, Caiming Xiong, Zeyu Zheng, Huaxiu Yao, Yuyin Zhou, Cihang Xie
cs.AI

초록

자율 GUI 에이전트는 두 가지 근본적인 과제에 직면합니다: 조기 중단(에이전트가 검증 가능한 증거 없이 성공을 선언하는 경우)과 반복 루프(에이전트가 동일한 실패 행동을 회복 없이 반복하는 경우)입니다. 본 논문은 시스템에 언제 멈출지(Stop), 회복할지(Recover), 탐색할지(Search)에 대한 지침을 제공하는 세 가지 통합 구성 요소를 중심으로 구축된 모듈식 GUI 에이전트 프레임워크인 VLAA-GUI를 제시합니다. 첫째, 필수 구성 요소인 완료 검증기(Completeness Verifier)는 모든 종료 단계에서 UI 관측 가능 성공 기준과 검증을 강제합니다. 이는 에이전트 수준 검증기가 완료 주장을 의사결정 규칙으로 교차 검증하고 직접적인 시각적 증거가 부족한 주장을 거부하는 방식으로 작동합니다. 둘째, 필수 구성 요소인 루프 차단기(Loop Breaker)는 다단계 필터링을 제공합니다: 반복적인 실패 후 상호작용 모드 전환, 지속적인 화면 상태 재발생 후 전략 변경 강제, 반성 신호를 전략 전환에 연결 등이 포함됩니다. 셋째, 주문형 탐색 에이전트(Search Agent)는 검색 능력을 보유한 강력한 LLM에 직접 질의하여 익숙하지 않은 워크플로를 온라인으로 탐색하고 결과를 일반 텍스트로 반환합니다. 또한 코드 집약적 작업을 위한 코딩 에이전트(Coding Agent)와 정확한 액션 그라운딩을 위한 그라운딩 에이전트(Grounding Agent)를 필요 시 주문형으로 호출하도록 통합했습니다. VLAA-GUI를 Opus 4.5, 4.6, Gemini 3.1 Pro를 포함한 5가지 최상위 백본에 대해 Linux 및 Windows 작업으로 구성된 두 벤치마크에서 평가한 결과, 둘 모두에서 최고 성능(OSWorld 77.5%, WindowsAgentArena 61.0%)을 달성했습니다. 특히 5개 백본 중 3개가 OSWorld에서 단일 패스 기준 인간 성능(72.4%)을 초과했습니다. ablation 연구는 제안된 세 가지 구성 요소 모두가 강력한 백본의 성능을 꾸준히 향상시키며, 상대적으로 약한 백본은 단계 예산이 충분할 때 이러한 도구로부터 더 큰 이점을 얻음을 보여줍니다. 추가 분석에 따르면 루프 차단기는 루프 발생 경향이 있는 모델의 낭비 단계를 거의 절반으로 줄입니다.
English
Autonomous GUI agents face two fundamental challenges: early stopping, where agents prematurely declare success without verifiable evidence, and repetitive loops, where agents cycle through the same failing actions without recovery. We present VLAA-GUI, a modular GUI agentic framework built around three integrated components that guide the system on when to Stop, Recover, and Search. First, a mandatory Completeness Verifier enforces UI-observable success criteria and verification at every finish step -- with an agent-level verifier that cross-examines completion claims with decision rules, rejecting those lacking direct visual evidence. Second, a mandatory Loop Breaker provides multi-tier filtering: switching interaction mode after repeated failures, forcing strategy changes after persistent screen-state recurrence, and binding reflection signals to strategy shifts. Third, an on-demand Search Agent searches online for unfamiliar workflows by directly querying a capable LLM with search ability, returning results as plain text. We additionally integrate a Coding Agent for code-intensive actions and a Grounding Agent for precise action grounding, both invoked on demand when required. We evaluate VLAA-GUI across five top-tier backbones, including Opus 4.5, 4.6 and Gemini 3.1 Pro, on two benchmarks with Linux and Windows tasks, achieving top performance on both (77.5% on OSWorld and 61.0% on WindowsAgentArena). Notably, three of the five backbones surpass human performance (72.4%) on OSWorld in a single pass. Ablation studies show that all three proposed components consistently improve a strong backbone, while a weaker backbone benefits more from these tools when the step budget is sufficient. Further analysis also shows that the Loop Breaker nearly halves wasted steps for loop-prone models.
PDF101April 25, 2026