ChatPaper.aiChatPaper

VLAA-GUI:停止・回復・検索の判断基準 - GUI自動化のためのモジュラー型フレームワーク

VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation

April 23, 2026
著者: Qijun Han, Haoqin Tu, Zijun Wang, Haoyue Dai, Yiyang Zhou, Nancy Lau, Alvaro A. Cardenas, Yuhui Xu, Ran Xu, Caiming Xiong, Zeyu Zheng, Huaxiu Yao, Yuyin Zhou, Cihang Xie
cs.AI

要旨

自律的なGUIエージェントは、2つの根本的な課題に直面している。1つは早期停止であり、エージェントが検証可能な証拠なしに成功を宣言してしまう現象である。もう1つは反復ループであり、エージェントが同じ失敗するアクションを回復なく繰り返す現象である。本論文では、VLAA-GUIを提案する。これは、システムにいつ停止し、回復し、探索すべきかを指示する3つの統合コンポーネントを中核としたモジュラー型GUIエージェントフレームワークである。 第一に、必須の完了検証器は、UIで観測可能な成功基準と、全ての終了ステップでの検証を強制する。これはエージェントレベルの検証器であり、完了主張を意思決定ルールで吟味し、直接的な視覚的証拠を欠く主張を却下する。 第二に、必須のループ遮断器は、多段階のフィルタリングを提供する。繰り返し失敗後のインタラクションモード切替、持続的な画面状態の再発生後の戦略変更の強制、反省シグナルと戦略転換の連携がこれにあたる。 第三に、オンデマンドの検索エージェントは、不慣れなワークフローに対して、検索能力を持つ高性能LLMに直接問い合わせてオンライン検索を行い、結果をプレーンテキストで返す。 さらに、コード集約型アクション用のコーディングエージェントと、精密なアクションの接地のための接地エージェントを統合しており、これらは必要に応じてオンデマンドで呼び出される。 VLAA-GUIを、Opus 4.5、4.6、Gemini 3.1 Proを含む5つのトップクラス基盤モデルで評価した。LinuxおよびWindowsタスクを含む2つのベンチマークにおいて、両方で最高性能(OSWorldで77.5%、WindowsAgentArenaで61.0%)を達成した。特筆すべきは、5つの基盤モデルのうち3つが、OSWorldにおいて単一パスで人間の性能(72.4%)を超えた点である。 アブレーション研究により、提案する3つのコンポーネント全てが、強力な基盤モデルの性能を一貫して向上させることが示された。一方、より弱い基盤モデルは、ステップ予算が十分な場合、これらのツールからより大きな恩恵を受ける。さらに分析により、ループ遮断器が、ループしやすいモデルにおける無駄なステップをほぼ半減させることも明らかになった。
English
Autonomous GUI agents face two fundamental challenges: early stopping, where agents prematurely declare success without verifiable evidence, and repetitive loops, where agents cycle through the same failing actions without recovery. We present VLAA-GUI, a modular GUI agentic framework built around three integrated components that guide the system on when to Stop, Recover, and Search. First, a mandatory Completeness Verifier enforces UI-observable success criteria and verification at every finish step -- with an agent-level verifier that cross-examines completion claims with decision rules, rejecting those lacking direct visual evidence. Second, a mandatory Loop Breaker provides multi-tier filtering: switching interaction mode after repeated failures, forcing strategy changes after persistent screen-state recurrence, and binding reflection signals to strategy shifts. Third, an on-demand Search Agent searches online for unfamiliar workflows by directly querying a capable LLM with search ability, returning results as plain text. We additionally integrate a Coding Agent for code-intensive actions and a Grounding Agent for precise action grounding, both invoked on demand when required. We evaluate VLAA-GUI across five top-tier backbones, including Opus 4.5, 4.6 and Gemini 3.1 Pro, on two benchmarks with Linux and Windows tasks, achieving top performance on both (77.5% on OSWorld and 61.0% on WindowsAgentArena). Notably, three of the five backbones surpass human performance (72.4%) on OSWorld in a single pass. Ablation studies show that all three proposed components consistently improve a strong backbone, while a weaker backbone benefits more from these tools when the step budget is sufficient. Further analysis also shows that the Loop Breaker nearly halves wasted steps for loop-prone models.
PDF101April 25, 2026