ChatPaper.aiChatPaper

GUI-Libra : Former des agents d'interface graphique natifs à raisonner et agir avec une supervision consciente des actions et un apprentissage par renforcement partiellement vérifiable

GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL

February 25, 2026
papers.authors: Rui Yang, Qianhui Wu, Zhaoyang Wang, Hanyang Chen, Ke Yang, Hao Cheng, Huaxiu Yao, Baoling Peng, Huan Zhang, Jianfeng Gao, Tong Zhang
cs.AI

papers.abstract

Les agents d'interface graphique (GUI) natifs open source accusent encore un retard par rapport aux systèmes propriétaires pour les tâches de navigation à long terme. Cet écart provient de deux limitations : un manque de données de raisonnement de haute qualité alignées sur les actions, et l'adoption directe de pipelines de post-formation génériques qui négligent les défis spécifiques aux agents GUI. Nous identifions deux problèmes fondamentaux dans ces pipelines : (i) la SFT standard avec raisonnement CoT nuit souvent à l'ancrage, et (ii) l'entraînement RLVR étape par étape se heurte à une vérifiabilité partielle, où plusieurs actions peuvent être correctes mais une seule action démontrée est utilisée pour la vérification. Cela rend les métriques étape par étape hors ligne de faibles prédicteurs de la réussite des tâches en ligne. Dans ce travail, nous présentons GUI-Libra, une méthode d'entraînement sur mesure qui relève ces défis. Premièrement, pour pallier la pénurie de données de raisonnement alignées sur les actions, nous introduisons un pipeline de construction et de filtrage de données et publions un jeu de données de raisonnement GUI curaté de 81 000 échantillons. Deuxièmement, pour concilier raisonnement et ancrage, nous proposons une SFT sensible aux actions qui mélange des données de type raisonnement-puis-action et action-directe et repondère les tokens pour accentuer l'action et l'ancrage. Troisièmement, pour stabiliser l'apprentissage par renforcement sous vérifiabilité partielle, nous identifions l'importance négligée de la régularisation KL dans le RLVR et montrons qu'une région de confiance KL est cruciale pour améliorer la prédictibilité hors ligne-vers-en ligne ; nous introduisons en outre une mise à l'échelle adaptative au succès pour atténuer les gradients négatifs peu fiables. Sur divers benchmarks web et mobiles, GUI-Libra améliore constamment à la fois la précision étape par étape et l'exécution de bout en bout des tâches. Nos résultats suggèrent qu'une post-formation et une curation des données soigneusement conçues peuvent débloquer des capacités de résolution de tâches bien plus fortes sans collecte de données en ligne coûteuse. Nous publions notre jeu de données, notre code et nos modèles pour faciliter les recherches futures sur la post-formation économe en données pour les agents GUI capables de raisonner.
English
Open-source native GUI agents still lag behind closed-source systems on long-horizon navigation tasks. This gap stems from two limitations: a shortage of high-quality, action-aligned reasoning data, and the direct adoption of generic post-training pipelines that overlook the unique challenges of GUI agents. We identify two fundamental issues in these pipelines: (i) standard SFT with CoT reasoning often hurts grounding, and (ii) step-wise RLVR-tyle training faces partial verifiability, where multiple actions can be correct but only a single demonstrated action is used for verification. This makes offline step-wise metrics weak predictors of online task success. In this work, we present GUI-Libra, a tailored training recipe that addresses these challenges. First, to mitigate the scarcity of action-aligned reasoning data, we introduce a data construction and filtering pipeline and release a curated 81K GUI reasoning dataset. Second, to reconcile reasoning with grounding, we propose action-aware SFT that mixes reasoning-then-action and direct-action data and reweights tokens to emphasize action and grounding. Third, to stabilize RL under partial verifiability, we identify the overlooked importance of KL regularization in RLVR and show that a KL trust region is critical for improving offline-to-online predictability; we further introduce success-adaptive scaling to downweight unreliable negative gradients. Across diverse web and mobile benchmarks, GUI-Libra consistently improves both step-wise accuracy and end-to-end task completion. Our results suggest that carefully designed post-training and data curation can unlock significantly stronger task-solving capabilities without costly online data collection. We release our dataset, code, and models to facilitate further research on data-efficient post-training for reasoning-capable GUI agents.
PDF122February 27, 2026