PhoneWorld: 휴대폰 사용 에이전트 환경 확장

초록

휴대폰 사용 에이전트의 핵심 병목은 실제 모바일 행동을 포괄하는 통제 가능하고 재현 가능한 환경을 대규모로 구축하기 어렵다는 점이다. 기존 모바일 에이전트 벤치마크는 평가에서 중요한 진전을 이루었지만, 그 자체만으로는 많은 새로운 휴대폰 사용 환경을 구축할 수 있는 확장 가능한 방법을 제공하지 못한다. 우리는 PhoneWorld를 제시한다. 이는 실제 GUI 궤적과 스크린샷을 통제 가능한 휴대폰 사용 환경, 실행 가능한 작업, 자동 검증기, 훈련 롤아웃으로 변환하는 재사용 가능한 파이프라인이다. 한 번에 하나의 모바일 벤치마크를 수동으로 구축하는 대신, PhoneWorld는 실제 궤적을 사용하여 어떤 화면이 중요한지, 화면이 어떻게 연결되는지, 어떤 상호작용이 환경 상태를 변경해야 하는지, 그리고 어떤 사용자 목표가 자동 검증을 허용하는지를 복원한다. 이러한 신호로부터 읽기 전용 앱 콘텐츠와 가변 상태로 뒷받침되는 실행 가능한 모의 안드로이드 앱을 구축한 다음, 동일한 환경에서 실행 가능한 작업, 규칙 기반 검증기 및 훈련 롤아웃을 도출한다. 현재 구현에서 PhoneWorld는 16개 도메인의 34개 앱을 포괄하며, 검색, 브라우징, 쇼핑, 예약, 미디어, 소셜 상호작용과 같은 일반적인 소비자 모바일 행동을 다룬다. 고정된 훈련 예산 하에서, AndroidWorld 기반 기준선의 보조 AndroidWorld 코퍼스에서 10K 스텝을 광범위한 PhoneWorld 감독으로 대체하면 네 가지 평가 벤치마크가 모두 동시에 개선되어 HYMobileBench가 17.7포인트, AndroidControl이 6.0포인트, AndroidWorld가 14.7포인트, PhoneWorld가 52.5포인트 상승한다. 그런 다음 두 가지 추가 확장 질문을 연구한다: PhoneWorld 감독량을 늘리면 PhoneWorld 성능이 크게 향상되며, 고정된 PhoneWorld 예산 하에서 앱 범위를 확장하면 훨씬 더 큰 이득을 얻을 수 있다. 전반적으로 PhoneWorld는 한 번에 하나의 모바일 벤치마크를 구축하는 것에서 휴대폰 사용 환경 자체의 공급을 확장하는 것으로 초점을 전환한다.

English

A central bottleneck for phone-use agents is that controllable, reproducible environments covering real mobile behavior are hard to build at scale. Existing mobile-agent benchmarks have made important progress on evaluation, but they do not by themselves provide a scalable way to construct many new phone-use environments. We present PhoneWorld, a reusable pipeline that converts real GUI trajectories and screenshots into controllable phone-use environments, executable tasks, automatic verifiers, and training rollouts. Rather than hand-building one mobile benchmark at a time, PhoneWorld uses real trajectories to recover which screens matter, how screens connect, which interactions must change environment state, and which user goals admit automatic verification. From these signals, it builds runnable mock Android apps backed by read-only app content and mutable state, then derives executable tasks, rule-based verifiers, and training rollouts from the same environments. In its current instantiation, PhoneWorld covers 34 apps across 16 domains, spanning common consumer mobile behaviors such as search, browsing, shopping, booking, media, and social interaction. Under a fixed training budget, replacing 10K steps from an auxiliary AndroidWorld corpus in an AndroidWorld-based baseline with broad PhoneWorld supervision improves all four evaluation benchmarks at once, raising HYMobileBench by 17.7 points, AndroidControl by 6.0 points, AndroidWorld by 14.7 points, and PhoneWorld by 52.5 points. We then study two additional scaling questions: increasing the amount of PhoneWorld supervision strongly improves PhoneWorld performance, and under a fixed PhoneWorld budget, expanding app coverage yields even larger gains. Overall, PhoneWorld shifts the focus from building one mobile benchmark at a time to scaling the supply of phone-use environments themselves.