PhoneHarness: Использование агентов для работы с телефоном через смешанные действия GUI, CLI и инструментов

Аннотация

Телефонные агенты всё чаще должны выполнять реальные мобильные рабочие процессы, а не просто предсказывать следующее действие на экране. Однако значительная часть современной литературы по мобильным агентам по-прежнему оценивает их прежде всего как контроллеры графического интерфейса (GUI), которые наблюдают за экраном, генерируют касания и свайпы, а их успех определяется целевым состоянием приложения. Реальные задачи использования телефона шире: они требуют принятия решений о том, когда использовать графические интерфейсы приложений, команды на стороне устройства или структурированные инструменты, при этом оставляя доказательства того, что предполагаемый побочный эффект действительно произошёл. Мы представляем PhoneHarness — смешанный бенчмарк действий и исполнительную среду для изучения агентов, использующих телефон, на верифицируемых мобильных рабочих процессах. PhoneHarness запускает цикл агента на стороне устройства, включающий действия через GUI, CLI и инструменты хост-машины, сочетая детерминированную маршрутизацию действий с ограниченным делегированием GUI и аудируемыми трассами выполнения. Его бенчмарк, PhoneHarness Bench, оценивает, выполняют ли агенты задачи с наблюдаемыми побочными эффектами, а не только то, генерируют ли они правдоподобные окончательные ответы. На размеченной оценочной выборке PhoneHarness достигает процента успешных прохождений в 75,0%, превосходя наиболее сильные настройки без PhoneHarness на 12,9 процентных пункта. Таким образом, PhoneHarness и PhoneHarness Bench выполняют различные, но взаимозависимые роли: среда делает смешанные телефонные рабочие процессы исполнимыми, тогда как бенчмарк измеряет, способны ли агенты использовать эту среду надёжно и безопасно. Наши результаты показывают, что надёжная автоматизация телефона зависит от маршрутизации по поверхностям действий и верифицируемого выполнения, а не только от визуального управления GUI.

English

Phone agents are increasingly expected to complete real mobile workflows rather than merely predict the next screen action. However, much of the current mobile-agent literature still evaluates agents primarily as GUI controllers that observe a screen, emit taps and swipes, and are scored by target app state. Real phone-use tasks are broader: they require deciding when to use app GUIs, device-side commands, or structured tools, while leaving evidence that the intended side effect actually occurred. We introduce PhoneHarness, a mixed-action benchmark and execution harness for studying phone-use agents on verifiable mobile workflows. PhoneHarness runs a device-side agent loop over GUI, CLI, and host-side tool actions, combining deterministic action routing with bounded GUI delegation and auditable execution traces. Its benchmark, PhoneHarness Bench, evaluates whether agents complete tasks with observable side effects, not only whether they produce plausible final answers. On the annotated evaluation split, PhoneHarness reaches a 75.0% pass rate, outperforming the strongest non-PhoneHarness settings by 12.9 percentage points. PhoneHarness and PhoneHarness Bench therefore play distinct but mutually dependent roles: the harness makes mixed phone workflows executable, while the benchmark measures whether agents can use that harness reliably and safely. Our findings suggest that reliable phone automation depends on action-surface routing and verifiable execution, not only visual GUI control.