OpenMobile: 작업 및 궤적 합성을 통한 오픈 모바일 에이전트 구축
OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis
April 16, 2026
저자: Kanzhi Cheng, Zehao Li, Zheng Ma, Nuo Chen, Jialin Cao, Qiushi Sun, Zichen Ding, Fangzhi Xu, Hang Yan, Jiajun Chen, Anh Tuan Luu, Jianbing Zhang, Lewei Lu, Dahua Lin
cs.AI
초록
비전-언어 모델로 구동되는 모바일 에이전트가 모바일 작업 자동화에서 인상적인 능력을 보여주며, 최근 선도 모델들은 AndroidWorld에서 약 70% 성공률과 같은 현저한 성능 도약을 이루었습니다. 그러나 이러한 시스템들은 학습 데이터를 공개하지 않고 있으며, 작업 및 궤적 합성 방법에 대해 불투명한 상태입니다. 본 논문은 고품질 작업 지시문과 에이전트 궤적을 합성하는 오픈소스 프레임워크인 OpenMobile을 제시합니다. 이 프레임워크는 두 가지 핵심 구성 요소를 갖추고 있습니다: (1) 첫 번째는 탐색을 통해 글로벌 환경 메모리를 구축한 다음, 이를 활용하여 다양하고 근거 있는 지시문을 생성하는 확장 가능한 작업 합성 파이프라인입니다. (2) 두 번째는 궤적 롤아웃을 위한 정책 전환 전략으로, 학습자와 전문가 모델을 교대로 사용하여 표준 모방 학습에서 종종 누락되는 필수적인 오류 복구 데이터를 포착합니다. 우리의 데이터로 학습된 에이전트는 세 가지 동적 모바일 에이전트 벤치마크에서 경쟁력 있는 결과를 달성했습니다. 특히, 미세 조정된 Qwen2.5-VL과 Qwen3-VL은 AndroidWorld에서 각각 51.7%, 64.7%의 성능을 보여 기존 오픈 데이터 접근법을 크게 능가했습니다. 더 나아가, 우리는 합성 지시문과 벤치마크 테스트 세트 간의 중첩에 대한 투명한 분석을 수행하고, 성능 향상이 벤치마크 과적합이 아닌 광범위한 기능 커버리지에서 비롯됨을 검증합니다. 데이터 격차를 해소하고 더 넓은 모바일 에이전트 연구를 촉진하기 위해 데이터와 코드를 https://njucckevin.github.io/openmobile/ 에 공개합니다.
English
Mobile agents powered by vision-language models have demonstrated impressive capabilities in automating mobile tasks, with recent leading models achieving a marked performance leap, e.g., nearly 70% success on AndroidWorld. However, these systems keep their training data closed and remain opaque about their task and trajectory synthesis recipes. We present OpenMobile, an open-source framework that synthesizes high-quality task instructions and agent trajectories, with two key components: (1) The first is a scalable task synthesis pipeline that constructs a global environment memory from exploration, then leverages it to generate diverse and grounded instructions. and (2) a policy-switching strategy for trajectory rollout. By alternating between learner and expert models, it captures essential error-recovery data often missing in standard imitation learning. Agents trained on our data achieve competitive results across three dynamic mobile agent benchmarks: notably, our fine-tuned Qwen2.5-VL and Qwen3-VL reach 51.7% and 64.7% on AndroidWorld, far surpassing existing open-data approaches. Furthermore, we conduct transparent analyses on the overlap between our synthetic instructions and benchmark test sets, and verify that performance gains stem from broad functionality coverage rather than benchmark overfitting. We release data and code at https://njucckevin.github.io/openmobile/ to bridge the data gap and facilitate broader mobile agent research.