OpenMobile: Construindo Agentes Móveis Abertos com Síntese de Tarefas e Trajetórias

Resumo

Agentes móveis alimentados por modelos visão-linguagem demonstraram capacidades impressionantes na automação de tarefas móveis, com modelos líderes recentes alcançando um salto significativo de desempenho, por exemplo, quase 70% de sucesso no AndroidWorld. No entanto, esses sistemas mantêm seus dados de treinamento fechados e permanecem opacos sobre suas receitas de síntese de tarefas e trajetórias. Apresentamos o OpenMobile, um *framework* de código aberto que sintetiza instruções de tarefas e trajetórias de agente de alta qualidade, com dois componentes principais: (1) O primeiro é um *pipeline* de síntese de tarefas escalável que constrói uma memória global do ambiente a partir da exploração e, em seguida, a aproveita para gerar instruções diversificadas e fundamentadas. E (2) uma estratégia de comutação de política para a execução de trajetórias. Ao alternar entre modelos aprendiz e especialista, ela captura dados essenciais de recuperação de erros frequentemente ausentes na aprendizagem por imitação padrão. Agentes treinados em nossos dados alcançam resultados competitivos em três *benchmarks* dinâmicos para agentes móveis: notavelmente, nossos modelos Qwen2.5-VL e Qwen3-VL ajustados atingem 51,7% e 64,7% no AndroidWorld, superando amplamente as abordagens de dados abertos existentes. Além disso, conduzimos análises transparentes sobre a sobreposição entre nossas instruções sintéticas e os conjuntos de teste dos *benchmarks*, e verificamos que os ganhos de desempenho decorrem de uma ampla cobertura funcional, e não de um *overfitting* ao *benchmark*. Disponibilizamos dados e código em https://njucckevin.github.io/openmobile/ para preencher a lacuna de dados e facilitar uma pesquisa mais ampla sobre agentes móveis.

English

Mobile agents powered by vision-language models have demonstrated impressive capabilities in automating mobile tasks, with recent leading models achieving a marked performance leap, e.g., nearly 70% success on AndroidWorld. However, these systems keep their training data closed and remain opaque about their task and trajectory synthesis recipes. We present OpenMobile, an open-source framework that synthesizes high-quality task instructions and agent trajectories, with two key components: (1) The first is a scalable task synthesis pipeline that constructs a global environment memory from exploration, then leverages it to generate diverse and grounded instructions. and (2) a policy-switching strategy for trajectory rollout. By alternating between learner and expert models, it captures essential error-recovery data often missing in standard imitation learning. Agents trained on our data achieve competitive results across three dynamic mobile agent benchmarks: notably, our fine-tuned Qwen2.5-VL and Qwen3-VL reach 51.7% and 64.7% on AndroidWorld, far surpassing existing open-data approaches. Furthermore, we conduct transparent analyses on the overlap between our synthetic instructions and benchmark test sets, and verify that performance gains stem from broad functionality coverage rather than benchmark overfitting. We release data and code at https://njucckevin.github.io/openmobile/ to bridge the data gap and facilitate broader mobile agent research.

OpenMobile: Construindo Agentes Móveis Abertos com Síntese de Tarefas e Trajetórias

OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis

Resumo

Support