GUI-Libra: Het trainen van native GUI-agenten om te redeneren en handelen met actiebewust toezicht en gedeeltelijk verifieerbare RL
GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL
February 25, 2026
Auteurs: Rui Yang, Qianhui Wu, Zhaoyang Wang, Hanyang Chen, Ke Yang, Hao Cheng, Huaxiu Yao, Baoling Peng, Huan Zhang, Jianfeng Gao, Tong Zhang
cs.AI
Samenvatting
Open-source native GUI-agents blijven achter bij gesloten systemen bij langetermijnnavigatietaken. Deze kloof komt voort uit twee beperkingen: een tekort aan hoogwaardige, actie-uitgelijnde redeneergegevens en de rechtstreekse toepassing van generieke natreiningspijplijnen die de unieke uitdagingen van GUI-agents over het hoofd zien. Wij identificeren twee fundamentele problemen in deze pijplijnen: (i) standaard SFT (Supervised Fine-Tuning) met CoT-redenering (Chain-of-Thought) schaadt vaak de grounding, en (ii) stapsgewijze RLVR-stijl training (Reinforcement Learning from Visual Reasoning) kampt met partiële verifieerbaarheid, waarbij meerdere acties correct kunnen zijn maar slechts één gedemonstreerde actie wordt gebruikt voor verificatie. Dit maakt offline stapsgewijze metrieken zwakke voorspellers van online taaksucces. In dit werk presenteren we GUI-Libra, een op maat gemaakt trainingsrecept dat deze uitdagingen aanpakt. Ten eerste, om het tekort aan actie-uitgelijnde redeneergegevens te verlichten, introduceren we een pijplijn voor dataconstructie en -filtering en geven we een gecureerde dataset van 81K GUI-redeneergegevens vrij. Ten tweede, om redenering te verzoenen met grounding, stellen we actiebewuste SFT voor, die redeneren-dan-handelen en directe-actiegegevens mengt en tokens herweegt om actie en grounding te benadrukken. Ten derde, om RL te stabiliseren onder partiële verifieerbaarheid, identificeren we het over het hoofd geziene belang van KL-regularisatie in RLVR en tonen we aan dat een KL-vertrouwensregio cruciaal is voor het verbeteren van de offline-naar-online voorspelbaarheid; we introduceren verder succesadaptieve schaling om onbetrouwbare negatieve gradiënten af te zwakken. Over diverse web- en mobiele benchmarks verbetert GUI-Libra consistent zowel de stapsgewijze nauwkeurigheid als de end-to-end taakvoltooiing. Onze resultaten suggereren dat zorgvuldig ontworpen natreining en datacuratie aanzienlijk sterkere taakoplossende capaciteiten kunnen ontsluiten zonder kostbare online gegevensverzameling. We geven onze dataset, code en modellen vrij om verder onderzoek naar data-efficiënte natreining voor redeneercapabele GUI-agents te vergemakkelijken.
English
Open-source native GUI agents still lag behind closed-source systems on long-horizon navigation tasks. This gap stems from two limitations: a shortage of high-quality, action-aligned reasoning data, and the direct adoption of generic post-training pipelines that overlook the unique challenges of GUI agents. We identify two fundamental issues in these pipelines: (i) standard SFT with CoT reasoning often hurts grounding, and (ii) step-wise RLVR-tyle training faces partial verifiability, where multiple actions can be correct but only a single demonstrated action is used for verification. This makes offline step-wise metrics weak predictors of online task success. In this work, we present GUI-Libra, a tailored training recipe that addresses these challenges. First, to mitigate the scarcity of action-aligned reasoning data, we introduce a data construction and filtering pipeline and release a curated 81K GUI reasoning dataset. Second, to reconcile reasoning with grounding, we propose action-aware SFT that mixes reasoning-then-action and direct-action data and reweights tokens to emphasize action and grounding. Third, to stabilize RL under partial verifiability, we identify the overlooked importance of KL regularization in RLVR and show that a KL trust region is critical for improving offline-to-online predictability; we further introduce success-adaptive scaling to downweight unreliable negative gradients. Across diverse web and mobile benchmarks, GUI-Libra consistently improves both step-wise accuracy and end-to-end task completion. Our results suggest that carefully designed post-training and data curation can unlock significantly stronger task-solving capabilities without costly online data collection. We release our dataset, code, and models to facilitate further research on data-efficient post-training for reasoning-capable GUI agents.