GUI-Libra: Treinando Agentes Nativos de GUI para Raciocinar e Agir com Supervisão Consciente de Ações e RL Parcialmente Verificável
GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL
February 25, 2026
Autores: Rui Yang, Qianhui Wu, Zhaoyang Wang, Hanyang Chen, Ke Yang, Hao Cheng, Huaxiu Yao, Baoling Peng, Huan Zhang, Jianfeng Gao, Tong Zhang
cs.AI
Resumo
Os agentes de GUI nativos de código aberto ainda ficam atrás dos sistemas proprietários em tarefas de navegação de longo horizonte. Essa lacuna decorre de duas limitações: a escassez de dados de raciocínio de alta qualidade alinhados com ações e a adoção direta de pipelines genéricos de pós-treinamento que ignoram os desafios exclusivos dos agentes de GUI. Identificamos dois problemas fundamentais nesses pipelines: (i) o SFT padrão com raciocínio CoT frequentemente prejudica o grounding, e (ii) o treinamento RLVR passo a passo enfrenta a verificabilidade parcial, onde múltiplas ações podem estar corretas, mas apenas uma única ação demonstrada é usada para verificação. Isso torna as métricas passo a passo offline preditores fracos do sucesso online da tarefa. Neste trabalho, apresentamos o GUI-Libra, uma receita de treinamento personalizada que aborda esses desafios. Primeiro, para mitigar a escassez de dados de raciocínio alinhados com ações, introduzimos um pipeline de construção e filtragem de dados e disponibilizamos um conjunto de dados curado de 81K para raciocínio em GUI. Segundo, para reconciliar o raciocínio com o grounding, propomos um SFT consciente da ação que mistura dados de raciocínio-para-ação e ação-direta e repondera tokens para enfatizar ação e grounding. Terceiro, para estabilizar o RL sob verificabilidade parcial, identificamos a importância negligenciada da regularização de KL no RLVR e mostramos que uma região de confiança de KL é crítica para melhorar a previsibilidade offline-online; introduzimos ainda um escalonamento adaptativo ao sucesso para reduzir o peso de gradientes negativos não confiáveis. Em diversos benchmarks web e móveis, o GUI-Libra melhora consistentemente tanto a precisão passo a passo quanto a conclusão de tarefas end-to-end. Nossos resultados sugerem que um pós-treinamento e uma curadoria de dados cuidadosamente projetados podem desbloquear capacidades de resolução de tarefas significativamente mais fortes sem a custosa coleta de dados online. Disponibilizamos nosso conjunto de dados, código e modelos para facilitar pesquisas futuras sobre pós-treinamento eficiente em dados para agentes de GUI com capacidade de raciocínio.
English
Open-source native GUI agents still lag behind closed-source systems on long-horizon navigation tasks. This gap stems from two limitations: a shortage of high-quality, action-aligned reasoning data, and the direct adoption of generic post-training pipelines that overlook the unique challenges of GUI agents. We identify two fundamental issues in these pipelines: (i) standard SFT with CoT reasoning often hurts grounding, and (ii) step-wise RLVR-tyle training faces partial verifiability, where multiple actions can be correct but only a single demonstrated action is used for verification. This makes offline step-wise metrics weak predictors of online task success. In this work, we present GUI-Libra, a tailored training recipe that addresses these challenges. First, to mitigate the scarcity of action-aligned reasoning data, we introduce a data construction and filtering pipeline and release a curated 81K GUI reasoning dataset. Second, to reconcile reasoning with grounding, we propose action-aware SFT that mixes reasoning-then-action and direct-action data and reweights tokens to emphasize action and grounding. Third, to stabilize RL under partial verifiability, we identify the overlooked importance of KL regularization in RLVR and show that a KL trust region is critical for improving offline-to-online predictability; we further introduce success-adaptive scaling to downweight unreliable negative gradients. Across diverse web and mobile benchmarks, GUI-Libra consistently improves both step-wise accuracy and end-to-end task completion. Our results suggest that carefully designed post-training and data curation can unlock significantly stronger task-solving capabilities without costly online data collection. We release our dataset, code, and models to facilitate further research on data-efficient post-training for reasoning-capable GUI agents.