GUI-Libra: Обучение нативных GUI-агентов рассуждению и действиям с помощью экшн-ориентированного контроля и частично верифицируемого обучения с подкреплением

Аннотация

Свободно распространяемые нативные GUI-агенты по-прежнему отстают от проприетарных систем в задачах навигации с длинным горизонтом планирования. Этот разрыв обусловлен двумя ограничениями: нехваткой высококачественных данных рассуждений, согласованных с действиями, и прямым заимствованием общих пайплайнов пост-обучения, которые игнорируют уникальные проблемы GUI-агентов. Мы выявляем две фундаментальные проблемы в этих пайплайнах: (i) стандартное SFT с рассуждениями CoT часто ухудшает граундинг, и (ii) пошаговое обучение в стиле RLVR сталкивается с проблемой частичной верифицируемости, когда несколько действий могут быть правильными, но для проверки используется лишь одно демонстрируемое действие. Это делает оффлайн пошаговые метрики слабыми предикторами успешности решения задачи в онлайн-режиме. В данной работе мы представляем GUI-Libra — специализированную методику обучения, которая решает эти проблемы. Во-первых, для смягчения дефицита данных рассуждений, согласованных с действиями, мы предлагаем пайплайн создания и фильтрации данных и публикуем отобранный набор данных на 81K примеров для GUI-рассуждений. Во-вторых, для согласования рассуждений с граундингом мы предлагаем action-aware SFT, которое комбинирует данные формата «рассуждение-затем-действие» и данные прямого действия и перевзвешивает токены, чтобы акцентировать действия и граундинг. В-третьих, для стабилизации RL в условиях частичной верифицируемости мы определяем недооцененную важность KL-регуляризации в RLVR и показываем, что KL-регион доверия критически важен для улучшения предсказуемости перехода от оффлайн- к онлайн-режиму; мы также вводим success-adaptive scaling для снижения веса ненадежных отрицательных градиентов. На различных бенчмарках для веб- и мобильных интерфейсов GUI-Libra последовательно улучшает как пошаговую точность, так и сквозное завершение задач. Наши результаты позволяют предположить, что тщательно спроектированное пост-обучение и курация данных могут раскрыть значительно более сильные способности к решению задач без дорогостоящего сбора онлайн-данных. Мы публикуем наш набор данных, код и модели для содействия дальнейшим исследованиям в области ресурсоэффективного пост-обучения GUI-агентов, способных к рассуждениям.

English

Open-source native GUI agents still lag behind closed-source systems on long-horizon navigation tasks. This gap stems from two limitations: a shortage of high-quality, action-aligned reasoning data, and the direct adoption of generic post-training pipelines that overlook the unique challenges of GUI agents. We identify two fundamental issues in these pipelines: (i) standard SFT with CoT reasoning often hurts grounding, and (ii) step-wise RLVR-tyle training faces partial verifiability, where multiple actions can be correct but only a single demonstrated action is used for verification. This makes offline step-wise metrics weak predictors of online task success. In this work, we present GUI-Libra, a tailored training recipe that addresses these challenges. First, to mitigate the scarcity of action-aligned reasoning data, we introduce a data construction and filtering pipeline and release a curated 81K GUI reasoning dataset. Second, to reconcile reasoning with grounding, we propose action-aware SFT that mixes reasoning-then-action and direct-action data and reweights tokens to emphasize action and grounding. Third, to stabilize RL under partial verifiability, we identify the overlooked importance of KL regularization in RLVR and show that a KL trust region is critical for improving offline-to-online predictability; we further introduce success-adaptive scaling to downweight unreliable negative gradients. Across diverse web and mobile benchmarks, GUI-Libra consistently improves both step-wise accuracy and end-to-end task completion. Our results suggest that carefully designed post-training and data curation can unlock significantly stronger task-solving capabilities without costly online data collection. We release our dataset, code, and models to facilitate further research on data-efficient post-training for reasoning-capable GUI agents.

GUI-Libra: Обучение нативных GUI-агентов рассуждению и действиям с помощью экшн-ориентированного контроля и частично верифицируемого обучения с подкреплением

GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL

Аннотация

Support