GUI-Libra: Entrenamiento de Agentes Nativos de GUI para Razonar y Actuar con Supervisión Consciente de la Acción y RL Parcialmente Verificable
GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL
February 25, 2026
Autores: Rui Yang, Qianhui Wu, Zhaoyang Wang, Hanyang Chen, Ke Yang, Hao Cheng, Huaxiu Yao, Baoling Peng, Huan Zhang, Jianfeng Gao, Tong Zhang
cs.AI
Resumen
Los agentes nativos de interfaz gráfica de usuario (GUI) de código abierto aún están por detrás de los sistemas de código cerrado en tareas de navegación de horizonte largo. Esta brecha surge de dos limitaciones: la escasez de datos de razonamiento de alta calidad alineados con acciones, y la adopción directa de pipelines genéricos de post-entrenamiento que pasan por alto los desafíos únicos de los agentes GUI. Identificamos dos problemas fundamentales en estas pipelines: (i) el SFT estándar con razonamiento CoT a menudo perjudica la capacidad de grounding, y (ii) el entrenamiento RLVR paso a paso enfrenta una verificabilidad parcial, donde múltiples acciones pueden ser correctas pero solo se utiliza una única acción demostrada para la verificación. Esto hace que las métricas paso a paso fuera de línea sean predictores débiles del éxito de la tarea en línea. En este trabajo, presentamos GUI-Libra, una receta de entrenamiento personalizada que aborda estos desafíos. Primero, para mitigar la escasez de datos de razonamiento alineados con acciones, introducimos una pipeline de construcción y filtrado de datos y publicamos un conjunto de datos curado de 81K instancias de razonamiento GUI. Segundo, para reconciliar el razonamiento con el grounding, proponemos un SFT consciente de la acción que mezcla datos de razonamiento-luego-acción y de acción directa, y repesca tokens para enfatizar la acción y el grounding. Tercero, para estabilizar el RL bajo verificabilidad parcial, identificamos la importancia pasada por alto de la regularización KL en RLVR y demostramos que una región de confianza KL es crítica para mejorar la predictibilidad fuera de línea a en línea; además, introducimos un escalado adaptativo al éxito para reducir el peso de los gradientes negativos no confiables. En diversos benchmarks web y móviles, GUI-Libra mejora consistentemente tanto la precisión paso a paso como la finalización de tareas de extremo a extremo. Nuestros resultados sugieren que un post-entrenamiento y una curación de datos cuidadosamente diseñados pueden desbloquear capacidades de resolución de tareas significativamente más fuertes sin una costosa recolección de datos en línea. Publicamos nuestro conjunto de datos, código y modelos para facilitar más investigaciones sobre el post-entrenamiento eficiente en datos para agentes GUI con capacidad de razonamiento.
English
Open-source native GUI agents still lag behind closed-source systems on long-horizon navigation tasks. This gap stems from two limitations: a shortage of high-quality, action-aligned reasoning data, and the direct adoption of generic post-training pipelines that overlook the unique challenges of GUI agents. We identify two fundamental issues in these pipelines: (i) standard SFT with CoT reasoning often hurts grounding, and (ii) step-wise RLVR-tyle training faces partial verifiability, where multiple actions can be correct but only a single demonstrated action is used for verification. This makes offline step-wise metrics weak predictors of online task success. In this work, we present GUI-Libra, a tailored training recipe that addresses these challenges. First, to mitigate the scarcity of action-aligned reasoning data, we introduce a data construction and filtering pipeline and release a curated 81K GUI reasoning dataset. Second, to reconcile reasoning with grounding, we propose action-aware SFT that mixes reasoning-then-action and direct-action data and reweights tokens to emphasize action and grounding. Third, to stabilize RL under partial verifiability, we identify the overlooked importance of KL regularization in RLVR and show that a KL trust region is critical for improving offline-to-online predictability; we further introduce success-adaptive scaling to downweight unreliable negative gradients. Across diverse web and mobile benchmarks, GUI-Libra consistently improves both step-wise accuracy and end-to-end task completion. Our results suggest that carefully designed post-training and data curation can unlock significantly stronger task-solving capabilities without costly online data collection. We release our dataset, code, and models to facilitate further research on data-efficient post-training for reasoning-capable GUI agents.