PhoneHarness: Aprovechamiento de Agentes de Uso de Teléfono mediante Acciones Mixtas de GUI, CLI y Herramientas

Resumen

Se espera cada vez más que los agentes telefónicos completen flujos de trabajo móviles reales, en lugar de limitarse a predecir la siguiente acción en pantalla. Sin embargo, gran parte de la literatura actual sobre agentes móviles todavía evalúa a estos principalmente como controladores de GUI que observan una pantalla, emiten toques y deslizamientos, y son puntuados según el estado objetivo de la aplicación. Las tareas reales de uso del teléfono son más amplias: requieren decidir cuándo usar las GUI de las aplicaciones, comandos del lado del dispositivo o herramientas estructuradas, dejando evidencia de que el efecto secundario previsto realmente ocurrió. Presentamos PhoneHarness, un benchmark y entorno de ejecución de acciones mixtas para estudiar agentes de uso telefónico en flujos de trabajo móviles verificables. PhoneHarness ejecuta un bucle de agente del lado del dispositivo sobre acciones de GUI, CLI y herramientas del lado anfitrión, combinando enrutamiento determinista de acciones con delegación limitada de GUI y trazas de ejecución auditables. Su benchmark, PhoneHarness Bench, evalúa si los agentes completan tareas con efectos secundarios observables, no solo si producen respuestas finales plausibles. En la división de evaluación anotada, PhoneHarness alcanza una tasa de aprobación del 75,0 %, superando en 12,9 puntos porcentuales a las configuraciones no PhoneHarness más sólidas. Por lo tanto, PhoneHarness y PhoneHarness Bench desempeñan funciones distintas pero mutuamente dependientes: el entorno de ejecución hace ejecutables los flujos de trabajo telefónicos mixtos, mientras que el benchmark mide si los agentes pueden usar ese entorno de manera confiable y segura. Nuestros hallazgos sugieren que la automatización telefónica confiable depende del enrutamiento de superficies de acción y de la ejecución verificable, no solo del control visual de la GUI.

English

Phone agents are increasingly expected to complete real mobile workflows rather than merely predict the next screen action. However, much of the current mobile-agent literature still evaluates agents primarily as GUI controllers that observe a screen, emit taps and swipes, and are scored by target app state. Real phone-use tasks are broader: they require deciding when to use app GUIs, device-side commands, or structured tools, while leaving evidence that the intended side effect actually occurred. We introduce PhoneHarness, a mixed-action benchmark and execution harness for studying phone-use agents on verifiable mobile workflows. PhoneHarness runs a device-side agent loop over GUI, CLI, and host-side tool actions, combining deterministic action routing with bounded GUI delegation and auditable execution traces. Its benchmark, PhoneHarness Bench, evaluates whether agents complete tasks with observable side effects, not only whether they produce plausible final answers. On the annotated evaluation split, PhoneHarness reaches a 75.0% pass rate, outperforming the strongest non-PhoneHarness settings by 12.9 percentage points. PhoneHarness and PhoneHarness Bench therefore play distinct but mutually dependent roles: the harness makes mixed phone workflows executable, while the benchmark measures whether agents can use that harness reliably and safely. Our findings suggest that reliable phone automation depends on action-surface routing and verifiable execution, not only visual GUI control.