VLAA-GUI : Savoir quand s'arrêter, récupérer et rechercher, un cadre modulaire pour l'automatisation d'interface graphique
VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation
April 23, 2026
Auteurs: Qijun Han, Haoqin Tu, Zijun Wang, Haoyue Dai, Yiyang Zhou, Nancy Lau, Alvaro A. Cardenas, Yuhui Xu, Ran Xu, Caiming Xiong, Zeyu Zheng, Huaxiu Yao, Yuyin Zhou, Cihang Xie
cs.AI
Résumé
Les agents autonomes d'interface graphique (GUI) sont confrontés à deux défis fondamentaux : l'arrêt prématuré, où les agents déclarent prématurément la réussite sans preuve vérifiable, et les boucles répétitives, où les agents exécutent cycliquement les mêmes actions infructueuses sans procédure de récupération. Nous présentons VLAA-GUI, un cadre agentique modulaire pour GUI construit autour de trois composants intégrés qui guident le système sur le moment d'Arrêter, de Récupérer et de Rechercher. Premièrement, un Vérificateur d'Achèvement obligatoire impose des critères de réussite observables dans l'interface et une vérification à chaque étape finale – avec un vérificateur au niveau de l'agent qui interroge les déclarations d'achèvement à l'aide de règles de décision, rejetant celles qui manquent de preuve visuelle directe. Deuxièmement, un Briseur de Boucle obligatoire fournit un filtrage multi-niveaux : changer le mode d'interaction après des échecs répétés, forcer des changements de stratégie après la récurrence persistante d'un état d'écran, et lier les signaux de réflexion à des changements de stratégie. Troisièmement, un Agent de Recherche à la demande recherche en ligne des workflows non familiers en interrogeant directement un LLM performant doté de capacités de recherche, renvoyant les résultats en texte brut. Nous intégrons également un Agent de Codage pour les actions intensives en code et un Agent d'Ancrage pour un ancrage d'action précis, tous deux invoqués à la demande si nécessaire. Nous évaluons VLAA-GUI sur cinq modèles de base de premier plan, incluant Opus 4.5, 4.6 et Gemini 3.1 Pro, sur deux benchmarks avec des tâches Linux et Windows, obtenant les meilleures performances sur les deux (77,5 % sur OSWorld et 61,0 % sur WindowsAgentArena). Notamment, trois des cinq modèles dépassent les performances humaines (72,4 %) sur OSWorld en une seule passe. Les études d'ablation montrent que les trois composants proposés améliorent constamment un modèle de base performant, tandis qu'un modèle plus faible bénéficie davantage de ces outils lorsque le budget d'étapes est suffisant. Une analyse plus poussée montre également que le Briseur de Boucle réduit de près de moitié les étapes gaspillées pour les modèles sujets aux boucles.
English
Autonomous GUI agents face two fundamental challenges: early stopping, where agents prematurely declare success without verifiable evidence, and repetitive loops, where agents cycle through the same failing actions without recovery. We present VLAA-GUI, a modular GUI agentic framework built around three integrated components that guide the system on when to Stop, Recover, and Search. First, a mandatory Completeness Verifier enforces UI-observable success criteria and verification at every finish step -- with an agent-level verifier that cross-examines completion claims with decision rules, rejecting those lacking direct visual evidence. Second, a mandatory Loop Breaker provides multi-tier filtering: switching interaction mode after repeated failures, forcing strategy changes after persistent screen-state recurrence, and binding reflection signals to strategy shifts. Third, an on-demand Search Agent searches online for unfamiliar workflows by directly querying a capable LLM with search ability, returning results as plain text. We additionally integrate a Coding Agent for code-intensive actions and a Grounding Agent for precise action grounding, both invoked on demand when required. We evaluate VLAA-GUI across five top-tier backbones, including Opus 4.5, 4.6 and Gemini 3.1 Pro, on two benchmarks with Linux and Windows tasks, achieving top performance on both (77.5% on OSWorld and 61.0% on WindowsAgentArena). Notably, three of the five backbones surpass human performance (72.4%) on OSWorld in a single pass. Ablation studies show that all three proposed components consistently improve a strong backbone, while a weaker backbone benefits more from these tools when the step budget is sufficient. Further analysis also shows that the Loop Breaker nearly halves wasted steps for loop-prone models.