OpenMobile: Het bouwen van open mobiele agents met taak- en trajectsynthese

Samenvatting

Vision-language models aangedreven mobiele agents hebben indrukwekkende capaciteiten getoond bij het automatiseren van mobiele taken, waarbij recente toonaangevende modellen een opmerkelijke prestatiesprong hebben bereikt, bijvoorbeeld bijna 70% succes op AndroidWorld. Deze systemen houden hun trainingsdata echter gesloten en blijven ondoorzichtig over hun recepten voor taak- en traject-synthese. Wij presenteren OpenMobile, een open-source raamwerk dat hoogwaardige taakinstructies en agenttrajecten synthetiseert, met twee kernelementen: (1) Ten eerste een schaalbare taaksynthese-pijplijn die een globaal omgevingsgeheugen opbouwt vanuit verkenning, en dit vervolgens benut om diverse en gegronde instructies te genereren. En (2) een policy-switching strategie voor trajectuitrol. Door af te wisselen tussen leerling- en expertmodellen, vangt het essentiële fouthersteldata op die vaak ontbreekt in standaard imitatieleren. Agents getraind op onze data behalen competitieve resultaten op drie dynamische mobiele agent benchmarks: opmerkelijk genoeg bereiken onze gefinetunede Qwen2.5-VL en Qwen3-VL respectievelijk 51.7% en 64.7% op AndroidWorld, wat ver uitstijgt boven bestaande open-data benaderingen. Verder voeren we transparante analyses uit naar de overlap tussen onze synthetische instructies en benchmark test sets, en verifiëren we dat prestatieverbeteringen voortkomen uit brede functionele dekking in plaats van overfitting op de benchmark. We geven data en code vrij op https://njucckevin.github.io/openmobile/ om de datakloof te overbruggen en breder mobiel agent-onderzoek te faciliteren.

English

Mobile agents powered by vision-language models have demonstrated impressive capabilities in automating mobile tasks, with recent leading models achieving a marked performance leap, e.g., nearly 70% success on AndroidWorld. However, these systems keep their training data closed and remain opaque about their task and trajectory synthesis recipes. We present OpenMobile, an open-source framework that synthesizes high-quality task instructions and agent trajectories, with two key components: (1) The first is a scalable task synthesis pipeline that constructs a global environment memory from exploration, then leverages it to generate diverse and grounded instructions. and (2) a policy-switching strategy for trajectory rollout. By alternating between learner and expert models, it captures essential error-recovery data often missing in standard imitation learning. Agents trained on our data achieve competitive results across three dynamic mobile agent benchmarks: notably, our fine-tuned Qwen2.5-VL and Qwen3-VL reach 51.7% and 64.7% on AndroidWorld, far surpassing existing open-data approaches. Furthermore, we conduct transparent analyses on the overlap between our synthetic instructions and benchmark test sets, and verify that performance gains stem from broad functionality coverage rather than benchmark overfitting. We release data and code at https://njucckevin.github.io/openmobile/ to bridge the data gap and facilitate broader mobile agent research.

OpenMobile: Het bouwen van open mobiele agents met taak- en trajectsynthese

OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis

Samenvatting

Support