OpenMobile: Создание открытых мобильных агентов с помощью синтеза задач и траекторий

Аннотация

Мобильные агенты, основанные на визуально-языковых моделях, продемонстрировали впечатляющие возможности в автоматизации мобильных задач, при этом последние ведущие модели достигли значительного скачка в производительности, например, почти 70% успеха на AndroidWorld. Однако эти системы сохраняют свои обучающие данные закрытыми и не раскрывают методы синтеза задач и траекторий. Мы представляем OpenMobile — фреймворк с открытым исходным кодом, который синтезирует высококачественные инструкции задач и траектории агентов, состоящий из двух ключевых компонентов: (1) Масштабируемый конвейер синтеза задач, который строит глобальную память среды на основе исследования, а затем использует её для генерации разнообразных и обоснованных инструкций; и (2) стратегию переключения политик для развёртывания траекторий. Переключаясь между обучаемой и экспертной моделями, она захватывает важные данные по восстановлению после ошибок, часто отсутствующие в стандартном обучении с подкреплением. Агенты, обученные на наших данных, показывают конкурентоспособные результаты на трёх динамичных бенчмарках для мобильных агентов: в частности, наши дообученные Qwen2.5-VL и Qwen3-VL достигают 51.7% и 64.7% на AndroidWorld, значительно превосходя существующие подходы с открытыми данными. Кроме того, мы проводим прозрачный анализ перекрытия между нашими синтетическими инструкциями и тестовыми наборами бенчмарков, подтверждая, что прирост производительности обусловлен широким охватом функциональности, а не переобучением на бенчмарк. Мы публикуем данные и код по адресу https://njucckevin.github.io/openmobile/, чтобы сократить разрыв в данных и способствовать более широким исследованиям мобильных агентов.

English

Mobile agents powered by vision-language models have demonstrated impressive capabilities in automating mobile tasks, with recent leading models achieving a marked performance leap, e.g., nearly 70% success on AndroidWorld. However, these systems keep their training data closed and remain opaque about their task and trajectory synthesis recipes. We present OpenMobile, an open-source framework that synthesizes high-quality task instructions and agent trajectories, with two key components: (1) The first is a scalable task synthesis pipeline that constructs a global environment memory from exploration, then leverages it to generate diverse and grounded instructions. and (2) a policy-switching strategy for trajectory rollout. By alternating between learner and expert models, it captures essential error-recovery data often missing in standard imitation learning. Agents trained on our data achieve competitive results across three dynamic mobile agent benchmarks: notably, our fine-tuned Qwen2.5-VL and Qwen3-VL reach 51.7% and 64.7% on AndroidWorld, far surpassing existing open-data approaches. Furthermore, we conduct transparent analyses on the overlap between our synthetic instructions and benchmark test sets, and verify that performance gains stem from broad functionality coverage rather than benchmark overfitting. We release data and code at https://njucckevin.github.io/openmobile/ to bridge the data gap and facilitate broader mobile agent research.

OpenMobile: Создание открытых мобильных агентов с помощью синтеза задач и траекторий

OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis

Аннотация

Support