GUI-Libra: Treinando Agentes Nativos de GUI para Raciocinar e Agir com Supervisão Consciente de Ações e RL Parcialmente Verificável

Resumo

Os agentes de GUI nativos de código aberto ainda ficam atrás dos sistemas proprietários em tarefas de navegação de longo horizonte. Essa lacuna decorre de duas limitações: a escassez de dados de raciocínio de alta qualidade alinhados com ações e a adoção direta de pipelines genéricos de pós-treinamento que ignoram os desafios exclusivos dos agentes de GUI. Identificamos dois problemas fundamentais nesses pipelines: (i) o SFT padrão com raciocínio CoT frequentemente prejudica o grounding, e (ii) o treinamento RLVR passo a passo enfrenta a verificabilidade parcial, onde múltiplas ações podem estar corretas, mas apenas uma única ação demonstrada é usada para verificação. Isso torna as métricas passo a passo offline preditores fracos do sucesso online da tarefa. Neste trabalho, apresentamos o GUI-Libra, uma receita de treinamento personalizada que aborda esses desafios. Primeiro, para mitigar a escassez de dados de raciocínio alinhados com ações, introduzimos um pipeline de construção e filtragem de dados e disponibilizamos um conjunto de dados curado de 81K para raciocínio em GUI. Segundo, para reconciliar o raciocínio com o grounding, propomos um SFT consciente da ação que mistura dados de raciocínio-para-ação e ação-direta e repondera tokens para enfatizar ação e grounding. Terceiro, para estabilizar o RL sob verificabilidade parcial, identificamos a importância negligenciada da regularização de KL no RLVR e mostramos que uma região de confiança de KL é crítica para melhorar a previsibilidade offline-online; introduzimos ainda um escalonamento adaptativo ao sucesso para reduzir o peso de gradientes negativos não confiáveis. Em diversos benchmarks web e móveis, o GUI-Libra melhora consistentemente tanto a precisão passo a passo quanto a conclusão de tarefas end-to-end. Nossos resultados sugerem que um pós-treinamento e uma curadoria de dados cuidadosamente projetados podem desbloquear capacidades de resolução de tarefas significativamente mais fortes sem a custosa coleta de dados online. Disponibilizamos nosso conjunto de dados, código e modelos para facilitar pesquisas futuras sobre pós-treinamento eficiente em dados para agentes de GUI com capacidade de raciocínio.

English

Open-source native GUI agents still lag behind closed-source systems on long-horizon navigation tasks. This gap stems from two limitations: a shortage of high-quality, action-aligned reasoning data, and the direct adoption of generic post-training pipelines that overlook the unique challenges of GUI agents. We identify two fundamental issues in these pipelines: (i) standard SFT with CoT reasoning often hurts grounding, and (ii) step-wise RLVR-tyle training faces partial verifiability, where multiple actions can be correct but only a single demonstrated action is used for verification. This makes offline step-wise metrics weak predictors of online task success. In this work, we present GUI-Libra, a tailored training recipe that addresses these challenges. First, to mitigate the scarcity of action-aligned reasoning data, we introduce a data construction and filtering pipeline and release a curated 81K GUI reasoning dataset. Second, to reconcile reasoning with grounding, we propose action-aware SFT that mixes reasoning-then-action and direct-action data and reweights tokens to emphasize action and grounding. Third, to stabilize RL under partial verifiability, we identify the overlooked importance of KL regularization in RLVR and show that a KL trust region is critical for improving offline-to-online predictability; we further introduce success-adaptive scaling to downweight unreliable negative gradients. Across diverse web and mobile benchmarks, GUI-Libra consistently improves both step-wise accuracy and end-to-end task completion. Our results suggest that carefully designed post-training and data curation can unlock significantly stronger task-solving capabilities without costly online data collection. We release our dataset, code, and models to facilitate further research on data-efficient post-training for reasoning-capable GUI agents.

GUI-Libra: Treinando Agentes Nativos de GUI para Raciocinar e Agir com Supervisão Consciente de Ações e RL Parcialmente Verificável

GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL

Resumo

Support