GUI-Libra: Addestramento di Agenti GUI Nativi a Ragionare e Agire con Supervisione Consapevole delle Azioni e RL Parzialmente Verificabile
GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL
February 25, 2026
Autori: Rui Yang, Qianhui Wu, Zhaoyang Wang, Hanyang Chen, Ke Yang, Hao Cheng, Huaxiu Yao, Baoling Peng, Huan Zhang, Jianfeng Gao, Tong Zhang
cs.AI
Abstract
Gli agenti GUI nativi open-source rimangono ancora indietro rispetto ai sistemi closed-source nelle attività di navigazione a lungo termine. Questo divario deriva da due limitazioni: una carenza di dati di ragionamento di alta qualità e allineati all'azione, e l'adozione diretta di pipeline di post-addestramento generiche che trascurano le sfide uniche degli agenti GUI. Identifichiamo due problemi fondamentali in queste pipeline: (i) la SFT standard con ragionamento a catena (CoT) spesso danneggia il grounding, e (ii) l'addestramento RLVR step-by-step deve affrontare la verificabilità parziale, dove più azioni possono essere corrette ma solo un'unica azione dimostrata viene utilizzata per la verifica. Ciò rende le metriche step-by-step offline dei deboli predittori del successo del compito online. In questo lavoro, presentiamo GUI-Libra, una ricetta di addestramento su misura che affronta queste sfide. Innanzitutto, per mitigare la scarsità di dati di ragionamento allineati all'azione, introduciamo una pipeline di costruzione e filtraggio dei dati e rilasciamo un dataset curato di 81K ragionamenti GUI. In secondo luogo, per riconciliare il ragionamento con il grounding, proponiamo una SFT consapevole dell'azione che combina dati di ragionamento-poi-azione e di azione-diretta e ripesca i token per enfatizzare l'azione e il grounding. Terzo, per stabilizzare l'RL sotto verificabilità parziale, identifichiamo l'importanza trascurata della regolarizzazione KL nell'RLVR e mostriamo che una regione di fiducia KL è fondamentale per migliorare la prevedibilità offline-to-online; introduciamo inoltre un ridimensionamento adattativo al successo per attribuire un peso minore ai gradienti negativi inaffidabili. Su vari benchmark web e mobile, GUI-Libra migliora costantemente sia l'accuratezza step-by-step che il completamento end-to-end dei compiti. I nostri risultati suggeriscono che un post-addestramento e una cura dei dati progettati attentamente possono sbloccare capacità di risoluzione dei compiti significativamente più forti senza una costosa raccolta di dati online. Rilasciamo il nostro dataset, codice e modelli per facilitare ulteriori ricerche sul post-addestramento efficiente dal punto di vista dei dati per agenti GUI capaci di ragionamento.
English
Open-source native GUI agents still lag behind closed-source systems on long-horizon navigation tasks. This gap stems from two limitations: a shortage of high-quality, action-aligned reasoning data, and the direct adoption of generic post-training pipelines that overlook the unique challenges of GUI agents. We identify two fundamental issues in these pipelines: (i) standard SFT with CoT reasoning often hurts grounding, and (ii) step-wise RLVR-tyle training faces partial verifiability, where multiple actions can be correct but only a single demonstrated action is used for verification. This makes offline step-wise metrics weak predictors of online task success. In this work, we present GUI-Libra, a tailored training recipe that addresses these challenges. First, to mitigate the scarcity of action-aligned reasoning data, we introduce a data construction and filtering pipeline and release a curated 81K GUI reasoning dataset. Second, to reconcile reasoning with grounding, we propose action-aware SFT that mixes reasoning-then-action and direct-action data and reweights tokens to emphasize action and grounding. Third, to stabilize RL under partial verifiability, we identify the overlooked importance of KL regularization in RLVR and show that a KL trust region is critical for improving offline-to-online predictability; we further introduce success-adaptive scaling to downweight unreliable negative gradients. Across diverse web and mobile benchmarks, GUI-Libra consistently improves both step-wise accuracy and end-to-end task completion. Our results suggest that carefully designed post-training and data curation can unlock significantly stronger task-solving capabilities without costly online data collection. We release our dataset, code, and models to facilitate further research on data-efficient post-training for reasoning-capable GUI agents.