PhoneHarness: Aproveitando Agentes de Uso de Telefone através de Ações Mistas de GUI, CLI e Ferramentas

Resumo

Agentes de telefonia estão cada vez mais sendo exigidos para realizar fluxos de trabalho móveis reais, em vez de apenas prever a próxima ação na tela. No entanto, grande parte da literatura atual sobre agentes móveis ainda os avalia principalmente como controladores de GUI que observam uma tela, emitem toques e deslizes e são pontuados pelo estado-alvo do aplicativo. As tarefas reais de uso do telefone são mais amplas: exigem decidir quando usar GUIs de aplicativos, comandos do lado do dispositivo ou ferramentas estruturadas, deixando evidências de que o efeito colateral pretendido realmente ocorreu. Apresentamos o PhoneHarness, um benchmark e arcabouço de execução de ações mistas para estudar agentes de uso de telefone em fluxos de trabalho móveis verificáveis. O PhoneHarness executa um loop de agente no lado do dispositivo sobre ações de GUI, CLI e ferramentas do lado do host, combinando roteamento determinístico de ações com delegação limitada de GUI e trilhas de execução auditáveis. Seu benchmark, PhoneHarness Bench, avalia se os agentes concluem tarefas com efeitos colaterais observáveis, não apenas se produzem respostas finais plausíveis. Na divisão de avaliação anotada, o PhoneHarness atinge uma taxa de aprovação de 75,0%, superando as configurações não PhoneHarness mais fortes em 12,9 pontos percentuais. O PhoneHarness e o PhoneHarness Bench desempenham, portanto, papéis distintos, mas mutuamente dependentes: o arcabouço torna os fluxos de trabalho mistos de telefone executáveis, enquanto o benchmark mede se os agentes podem usar esse arcabouço de forma confiável e segura. Nossos resultados sugerem que a automação confiável de telefones depende do roteamento da superfície de ação e da execução verificável, e não apenas do controle visual da GUI.

English

Phone agents are increasingly expected to complete real mobile workflows rather than merely predict the next screen action. However, much of the current mobile-agent literature still evaluates agents primarily as GUI controllers that observe a screen, emit taps and swipes, and are scored by target app state. Real phone-use tasks are broader: they require deciding when to use app GUIs, device-side commands, or structured tools, while leaving evidence that the intended side effect actually occurred. We introduce PhoneHarness, a mixed-action benchmark and execution harness for studying phone-use agents on verifiable mobile workflows. PhoneHarness runs a device-side agent loop over GUI, CLI, and host-side tool actions, combining deterministic action routing with bounded GUI delegation and auditable execution traces. Its benchmark, PhoneHarness Bench, evaluates whether agents complete tasks with observable side effects, not only whether they produce plausible final answers. On the annotated evaluation split, PhoneHarness reaches a 75.0% pass rate, outperforming the strongest non-PhoneHarness settings by 12.9 percentage points. PhoneHarness and PhoneHarness Bench therefore play distinct but mutually dependent roles: the harness makes mixed phone workflows executable, while the benchmark measures whether agents can use that harness reliably and safely. Our findings suggest that reliable phone automation depends on action-surface routing and verifiable execution, not only visual GUI control.