PhoneHarness : Exploiter les agents d'utilisation du téléphone via des actions mixtes GUI, CLI et outils.

Résumé

On attend de plus en plus des agents téléphoniques qu'ils exécutent de véritables workflows mobiles, plutôt que de simplement prédire la prochaine action à l'écran. Pourtant, une grande partie de la littérature actuelle sur les agents mobiles évalue encore ces agents principalement comme des contrôleurs d'interface graphique (GUI) qui observent un écran, émettent des taps et des swipes, et sont notés selon l'état cible de l'application. Les tâches réelles d'utilisation d'un téléphone sont plus larges : elles nécessitent de décider quand utiliser les GUI des applications, les commandes côté appareil ou des outils structurés, tout en laissant des preuves que l'effet de bord visé s'est réellement produit. Nous présentons PhoneHarness, un benchmark et un harnais d'exécution à actions mixtes pour étudier les agents d'utilisation de téléphone sur des workflows mobiles vérifiables. PhoneHarness exécute une boucle d'agent côté appareil sur des actions GUI, CLI et outils côté hôte, combinant un routage déterministe des actions avec une délégation GUI limitée et des traces d'exécution auditées. Son benchmark, PhoneHarness Bench, évalue si les agents accomplissent des tâches avec des effets de bord observables, et non seulement s'ils produisent des réponses finales plausibles. Sur la division d'évaluation annotée, PhoneHarness atteint un taux de réussite de 75,0 %, surpassant de 12,9 points de pourcentage les configurations non-PhoneHarness les plus performantes. PhoneHarness et PhoneHarness Bench jouent donc des rôles distincts mais mutuellement dépendants : le harnais rend exécutables les workflows téléphoniques mixtes, tandis que le benchmark mesure si les agents peuvent utiliser ce harnais de manière fiable et sûre. Nos résultats suggèrent qu'une automatisation téléphonique fiable dépend du routage par surface d'action et de l'exécution vérifiable, et non seulement du contrôle visuel de l'interface graphique.

English

Phone agents are increasingly expected to complete real mobile workflows rather than merely predict the next screen action. However, much of the current mobile-agent literature still evaluates agents primarily as GUI controllers that observe a screen, emit taps and swipes, and are scored by target app state. Real phone-use tasks are broader: they require deciding when to use app GUIs, device-side commands, or structured tools, while leaving evidence that the intended side effect actually occurred. We introduce PhoneHarness, a mixed-action benchmark and execution harness for studying phone-use agents on verifiable mobile workflows. PhoneHarness runs a device-side agent loop over GUI, CLI, and host-side tool actions, combining deterministic action routing with bounded GUI delegation and auditable execution traces. Its benchmark, PhoneHarness Bench, evaluates whether agents complete tasks with observable side effects, not only whether they produce plausible final answers. On the annotated evaluation split, PhoneHarness reaches a 75.0% pass rate, outperforming the strongest non-PhoneHarness settings by 12.9 percentage points. PhoneHarness and PhoneHarness Bench therefore play distinct but mutually dependent roles: the harness makes mixed phone workflows executable, while the benchmark measures whether agents can use that harness reliably and safely. Our findings suggest that reliable phone automation depends on action-surface routing and verifiable execution, not only visual GUI control.