OpenMobile: Costruire agenti mobili aperti con sintesi di compiti e traiettorie

Abstract

Gli agenti mobili alimentati da modelli visione-linguaggio hanno dimostrato capacità impressionanti nell'automatizzare compiti mobili, con i modelli più recenti che mostrano un netto salto prestazionale, ad esempio quasi il 70% di successo su AndroidWorld. Tuttavia, questi sistemi mantengono chiusi i loro dati di addestramento e rimangono opachi riguardo alle loro ricette di sintesi di compiti e traiettorie. Presentiamo OpenMobile, un framework open-source che sintetizza istruzioni per compiti e traiettorie dell'agente di alta qualità, con due componenti chiave: (1) Il primo è una pipeline di sintesi di compiti scalabile che costruisce una memoria ambientale globale dall'esplorazione, per poi sfruttarla per generare istruzioni diversificate e fondate. e (2) una strategia di commutazione della policy per il rollout delle traiettorie. Alternando tra modelli "apprendista" ed "esperto", cattura dati essenziali di ripristino dagli errori spesso assenti nell'apprendimento per imitazione standard. Agenti addestrati sui nostri dati raggiungono risultati competitivi su tre benchmark dinamici per agenti mobili: in particolare, le nostre versioni fine-tuned di Qwen2.5-VL e Qwen3-VL raggiungono rispettivamente il 51,7% e il 64,7% su AndroidWorld, superando di gran lunga gli approcci open-data esistenti. Inoltre, conduciamo analisi trasparenti sulla sovrapposizione tra le nostre istruzioni sintetiche e i set di test dei benchmark, e verifichiamo che i guadagni prestazionali derivano da un'ampia copertura funzionale piuttosto che da overfitting sul benchmark. Rilasciamo dati e codice su https://njucckevin.github.io/openmobile/ per colmare il divario dati e facilitare una ricerca più ampia sugli agenti mobili.

English

Mobile agents powered by vision-language models have demonstrated impressive capabilities in automating mobile tasks, with recent leading models achieving a marked performance leap, e.g., nearly 70% success on AndroidWorld. However, these systems keep their training data closed and remain opaque about their task and trajectory synthesis recipes. We present OpenMobile, an open-source framework that synthesizes high-quality task instructions and agent trajectories, with two key components: (1) The first is a scalable task synthesis pipeline that constructs a global environment memory from exploration, then leverages it to generate diverse and grounded instructions. and (2) a policy-switching strategy for trajectory rollout. By alternating between learner and expert models, it captures essential error-recovery data often missing in standard imitation learning. Agents trained on our data achieve competitive results across three dynamic mobile agent benchmarks: notably, our fine-tuned Qwen2.5-VL and Qwen3-VL reach 51.7% and 64.7% on AndroidWorld, far surpassing existing open-data approaches. Furthermore, we conduct transparent analyses on the overlap between our synthetic instructions and benchmark test sets, and verify that performance gains stem from broad functionality coverage rather than benchmark overfitting. We release data and code at https://njucckevin.github.io/openmobile/ to bridge the data gap and facilitate broader mobile agent research.

OpenMobile: Costruire agenti mobili aperti con sintesi di compiti e traiettorie

OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis

Abstract

Support