OpenMobile : Construire des agents mobiles ouverts grâce à la synthèse de tâches et de trajectoires

Résumé

Les agents mobiles alimentés par des modèles vision-langage ont démontré des capacités impressionnantes dans l'automatisation des tâches mobiles, les modèles leaders récents réalisant un bond de performances notable, par exemple près de 70% de réussite sur AndroidWorld. Cependant, ces systèmes gardent leurs données d'entraînement fermées et restent opaques quant à leurs méthodes de synthèse de tâches et de trajectoires. Nous présentons OpenMobile, un cadre open-source qui synthétise des instructions de tâches et des trajectoires d'agent de haute qualité, avec deux composants clés : (1) Le premier est un pipeline de synthèse de tâches évolutif qui construit une mémoire d'environnement globale à partir de l'exploration, puis l'utilise pour générer des instructions diverses et ancrées. et (2) une stratégie de commutation de politique pour le déploiement de trajectoires. En alternant entre modèles apprenti et expert, elle capture les données essentielles de correction d'erreurs souvent absentes de l'apprentissage par imitation standard. Les agents entraînés sur nos données obtiennent des résultats compétitifs sur trois benchmarks dynamiques d'agents mobiles : notamment, nos Qwen2.5-VL et Qwen3-VL affinent́s atteignent 51,7% et 64,7% sur AndroidWorld, dépassant largement les approches ouvertes existantes. De plus, nous menons des analyses transparentes sur le chevauchement entre nos instructions synthétiques et les ensembles de test des benchmarks, et vérifions que les gains de performance proviennent d'une couverture fonctionnelle étendue plutôt que d'un surajustement aux benchmarks. Nous publions données et code sur https://njucckevin.github.io/openmobile/ pour combler le déficit de données et faciliter une recherche plus large sur les agents mobiles.

English

Mobile agents powered by vision-language models have demonstrated impressive capabilities in automating mobile tasks, with recent leading models achieving a marked performance leap, e.g., nearly 70% success on AndroidWorld. However, these systems keep their training data closed and remain opaque about their task and trajectory synthesis recipes. We present OpenMobile, an open-source framework that synthesizes high-quality task instructions and agent trajectories, with two key components: (1) The first is a scalable task synthesis pipeline that constructs a global environment memory from exploration, then leverages it to generate diverse and grounded instructions. and (2) a policy-switching strategy for trajectory rollout. By alternating between learner and expert models, it captures essential error-recovery data often missing in standard imitation learning. Agents trained on our data achieve competitive results across three dynamic mobile agent benchmarks: notably, our fine-tuned Qwen2.5-VL and Qwen3-VL reach 51.7% and 64.7% on AndroidWorld, far surpassing existing open-data approaches. Furthermore, we conduct transparent analyses on the overlap between our synthetic instructions and benchmark test sets, and verify that performance gains stem from broad functionality coverage rather than benchmark overfitting. We release data and code at https://njucckevin.github.io/openmobile/ to bridge the data gap and facilitate broader mobile agent research.

OpenMobile : Construire des agents mobiles ouverts grâce à la synthèse de tâches et de trajectoires

OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis

Résumé

Support