VLAA-GUI: Saber Quando Parar, Recuperar e Buscar, Uma Estrutura Modular para Automação de Interface Gráfica

Resumo

Os agentes autónomos de interface gráfica enfrentam dois desafios fundamentais: a paragem prematura, em que os agentes declaram sucesso antecipadamente sem evidências verificáveis, e os ciclos repetitivos, em que os agentes repetem as mesmas ações falhadas sem capacidade de recuperação. Apresentamos o VLAA-GUI, um framework modular de agentes para GUI construído em torno de três componentes integrados que orientam o sistema sobre quando Parar, Recuperar e Procurar. Primeiro, um Verificador de Completude obrigatório aplica critérios de sucesso observáveis na UI e verificação em cada passo final — com um verificador a nível de agente que interroga as alegações de conclusão com regras de decisão, rejeitando aquelas que carecem de evidência visual direta. Segundo, um Quebrador de Ciclos obrigatório fornece uma filtragem multi-nível: alternando o modo de interação após falhas repetidas, forçando mudanças de estratégia após a recorrência persistente do estado do ecrã e vinculando sinais de reflexão a mudanças de estratégia. Terceiro, um Agente de Pesquisa sob demanda procura online por fluxos de trabalho desconhecidos, consultando diretamente um LLM capacitado com capacidade de pesquisa e devolvendo os resultados em texto simples. Integramos adicionalmente um Agente de Codificação para ações intensivas em código e um Agente de Aterragem Semântica para uma baseação precisa de ações, ambos invocados sob demanda quando necessário. Avaliamos o VLAA-GUI em cinco *backbones* de topo, incluindo Opus 4.5, 4.6 e Gemini 3.1 Pro, em dois benchmarks com tarefas de Linux e Windows, alcançando o melhor desempenho em ambos (77,5% no OSWorld e 61,0% no WindowsAgentArena). Notavelmente, três dos cinco *backbones* superam o desempenho humano (72,4%) no OSWorld numa única passagem. Estudos de ablação mostram que todos os três componentes propostos melhoram consistentemente um *backbone* forte, enquanto um *backbone* mais fraco beneficia mais destas ferramentas quando o orçamento de passos é suficiente. Uma análise mais aprofundada também mostra que o Quebrador de Ciclos reduz quase para metade os passos desperdiçados por modelos propensos a ciclos.

English

Autonomous GUI agents face two fundamental challenges: early stopping, where agents prematurely declare success without verifiable evidence, and repetitive loops, where agents cycle through the same failing actions without recovery. We present VLAA-GUI, a modular GUI agentic framework built around three integrated components that guide the system on when to Stop, Recover, and Search. First, a mandatory Completeness Verifier enforces UI-observable success criteria and verification at every finish step -- with an agent-level verifier that cross-examines completion claims with decision rules, rejecting those lacking direct visual evidence. Second, a mandatory Loop Breaker provides multi-tier filtering: switching interaction mode after repeated failures, forcing strategy changes after persistent screen-state recurrence, and binding reflection signals to strategy shifts. Third, an on-demand Search Agent searches online for unfamiliar workflows by directly querying a capable LLM with search ability, returning results as plain text. We additionally integrate a Coding Agent for code-intensive actions and a Grounding Agent for precise action grounding, both invoked on demand when required. We evaluate VLAA-GUI across five top-tier backbones, including Opus 4.5, 4.6 and Gemini 3.1 Pro, on two benchmarks with Linux and Windows tasks, achieving top performance on both (77.5% on OSWorld and 61.0% on WindowsAgentArena). Notably, three of the five backbones surpass human performance (72.4%) on OSWorld in a single pass. Ablation studies show that all three proposed components consistently improve a strong backbone, while a weaker backbone benefits more from these tools when the step budget is sufficient. Further analysis also shows that the Loop Breaker nearly halves wasted steps for loop-prone models.

VLAA-GUI: Saber Quando Parar, Recuperar e Buscar, Uma Estrutura Modular para Automação de Interface Gráfica

VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation

Resumo

Support