UI-Genie: Самообучающийся подход для итеративного улучшения мобильных агентов с графическим интерфейсом на основе мультимодальных языковых моделей

Аннотация

В данной статье мы представляем UI-Genie, самообучающуюся структуру, которая решает две ключевые проблемы, связанные с агентами для графических интерфейсов (GUI): сложность проверки результатов траекторий и отсутствие масштабируемых высококачественных обучающих данных. Эти проблемы решаются с помощью модели вознаграждения и самообучающегося конвейера соответственно. Модель вознаграждения, UI-Genie-RM, обладает архитектурой, объединяющей изображения и текст, что позволяет эффективно обрабатывать исторический контекст и объединять вознаграждения на уровне действий и задач. Для поддержки обучения UI-Genie-RM мы разработали специальные стратегии генерации данных, включая проверку на основе правил, контролируемое искажение траекторий и поиск сложных негативных примеров. Для решения второй проблемы самообучающийся конвейер постепенно расширяет набор решаемых сложных задач GUI, улучшая как агента, так и модель вознаграждения через исследование, управляемое вознаграждением, и проверку результатов в динамических средах. Для обучения модели мы создали наборы данных UI-Genie-RM-517k и UI-Genie-Agent-16k, устанавливая первый набор данных, специфичный для вознаграждений в агентах GUI, и демонстрируя генерацию высококачественных синтетических траекторий без ручной аннотации. Результаты экспериментов показывают, что UI-Genie достигает наилучших результатов на нескольких тестах для агентов GUI благодаря трём поколениям самообучения модели и данных. Мы открываем исходный код нашей полной реализации структуры и сгенерированных наборов данных для содействия дальнейшим исследованиям на https://github.com/Euphoria16/UI-Genie.

English

In this paper, we introduce UI-Genie, a self-improving framework addressing two key challenges in GUI agents: verification of trajectory outcome is challenging and high-quality training data are not scalable. These challenges are addressed by a reward model and a self-improving pipeline, respectively. The reward model, UI-Genie-RM, features an image-text interleaved architecture that efficiently pro- cesses historical context and unifies action-level and task-level rewards. To sup- port the training of UI-Genie-RM, we develop deliberately-designed data genera- tion strategies including rule-based verification, controlled trajectory corruption, and hard negative mining. To address the second challenge, a self-improvement pipeline progressively expands solvable complex GUI tasks by enhancing both the agent and reward models through reward-guided exploration and outcome verification in dynamic environments. For training the model, we generate UI- Genie-RM-517k and UI-Genie-Agent-16k, establishing the first reward-specific dataset for GUI agents while demonstrating high-quality synthetic trajectory gen- eration without manual annotation. Experimental results show that UI-Genie achieves state-of-the-art performance across multiple GUI agent benchmarks with three generations of data-model self-improvement. We open-source our complete framework implementation and generated datasets to facilitate further research in https://github.com/Euphoria16/UI-Genie.

UI-Genie: Самообучающийся подход для итеративного улучшения мобильных агентов с графическим интерфейсом на основе мультимодальных языковых моделей

UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents

Аннотация

Support