VLAA-GUI: Знать, когда остановиться, восстановиться и продолжить поиск. Модульная система для автоматизации графического интерфейса пользователя
VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation
April 23, 2026
Авторы: Qijun Han, Haoqin Tu, Zijun Wang, Haoyue Dai, Yiyang Zhou, Nancy Lau, Alvaro A. Cardenas, Yuhui Xu, Ran Xu, Caiming Xiong, Zeyu Zheng, Huaxiu Yao, Yuyin Zhou, Cihang Xie
cs.AI
Аннотация
Автономные GUI-агенты сталкиваются с двумя фундаментальными проблемами: преждевременной остановкой, когда агенты досрочно заявляют об успехе без проверяемых доказательств, и циклическими повторами, когда агенты бесконечно выполняют одни и те же неудачные действия без восстановления. Мы представляем VLAA-GUI — модульную агентскую архитектуру для GUI, построенную вокруг трёх интегрированных компонентов, которые направляют систему в решении, когда следует Останавливаться, Восстанавливаться и Искать. Во-первых, обязательный Верификатор Полноты обеспечивает проверку критериев успеха, наблюдаемых в UI, на каждом завершающем шаге — с помощью верификатора на уровне агента, который перекрёстно проверяет заявления о завершении с помощью правил принятия решений, отвергая те, что не имеют прямых визуальных доказательств. Во-вторых, обязательный Прерыватель Цикла предоставляет многоуровневую фильтрацию: переключение режима взаимодействия после повторных сбоев, принудительную смену стратегии после устойчивого повторения состояния экрана и привязку сигналов рефлексии к сменам стратегии. В-третьих, агент Поиска по требованию ищет в сети незнакомые рабочие процессы путём прямого запроса к мощной LLM с поисковыми возможностями, возвращая результаты в виде простого текста. Дополнительно мы интегрируем Кодирующего Агента для действий, интенсивных по коду, и Агента Привязки для точной привязки действий, оба вызываемые по требованию. Мы оцениваем VLAA-GUI на пяти передовых базовых моделях, включая Opus 4.5, 4.6 и Gemini 3.1 Pro, на двух тестовых наборах с задачами для Linux и Windows, достигая наивысшей производительности на обоих (77,5% на OSWorld и 61,0% на WindowsAgentArena). Примечательно, что три из пяти моделей превосходят производительность человека (72,4%) на OSWorld за одну попытку. Абляционные исследования показывают, что все три предложенных компонента последовательно улучшают сильную базовую модель, тогда как более слабая модель извлекает больше пользы из этих инструментов при достаточном бюджете шагов. Дальнейший анализ также показывает, что Прерыватель Цикла сокращает потраченные впустую шаги почти вдвое для моделей, склонных к зацикливанию.
English
Autonomous GUI agents face two fundamental challenges: early stopping, where agents prematurely declare success without verifiable evidence, and repetitive loops, where agents cycle through the same failing actions without recovery. We present VLAA-GUI, a modular GUI agentic framework built around three integrated components that guide the system on when to Stop, Recover, and Search. First, a mandatory Completeness Verifier enforces UI-observable success criteria and verification at every finish step -- with an agent-level verifier that cross-examines completion claims with decision rules, rejecting those lacking direct visual evidence. Second, a mandatory Loop Breaker provides multi-tier filtering: switching interaction mode after repeated failures, forcing strategy changes after persistent screen-state recurrence, and binding reflection signals to strategy shifts. Third, an on-demand Search Agent searches online for unfamiliar workflows by directly querying a capable LLM with search ability, returning results as plain text. We additionally integrate a Coding Agent for code-intensive actions and a Grounding Agent for precise action grounding, both invoked on demand when required. We evaluate VLAA-GUI across five top-tier backbones, including Opus 4.5, 4.6 and Gemini 3.1 Pro, on two benchmarks with Linux and Windows tasks, achieving top performance on both (77.5% on OSWorld and 61.0% on WindowsAgentArena). Notably, three of the five backbones surpass human performance (72.4%) on OSWorld in a single pass. Ablation studies show that all three proposed components consistently improve a strong backbone, while a weaker backbone benefits more from these tools when the step budget is sufficient. Further analysis also shows that the Loop Breaker nearly halves wasted steps for loop-prone models.