PhoneHarness: Nutzung von Smartphone-Nutzungsagenten durch gemischte GUI-, CLI- und Tool-Aktionen

Zusammenfassung

Phone-Agenten werden zunehmend damit beauftragt, reale mobile Arbeitsabläufe vollständig auszuführen, anstatt lediglich die nächste Bildschirmaktion vorherzusagen. Ein Großteil der aktuellen Literatur zu mobilen Agenten bewertet diese jedoch weiterhin primär als GUI-Steuerungen, die einen Bildschirm beobachten, Tipp- und Wischgesten ausführen und anhand des erreichten App-Zustands bewertet werden. Reale Telefonnutzungsaufgaben sind breiter gefasst: Sie erfordern Entscheidungen darüber, wann App-GUIs, geräteseitige Befehle oder strukturierte Werkzeuge eingesetzt werden sollen, während gleichzeitig nachweisbar sein muss, dass die beabsichtigte Nebenwirkung tatsächlich eingetreten ist. Wir stellen PhoneHarness vor, einen Benchmark und eine Ausführungsumgebung für gemischte Aktionen zur Untersuchung von Phone-Agenten bei verifizierbaren mobilen Arbeitsabläufen. PhoneHarness führt eine geräteseitige Agentenschleife über GUI-, CLI- und hostseitige Werkzeugaktionen aus, die deterministische Aktionsweiterleitung mit begrenzter GUI-Delegation und prüfbaren Ausführungsprotokollen kombiniert. Der zugehörige Benchmark, PhoneHarness Bench, bewertet, ob Agenten Aufgaben mit beobachtbaren Nebenwirkungen abschließen, nicht nur, ob sie plausible Endantworten liefern. Im annotierten Evaluierungssplit erreicht PhoneHarness eine Erfolgsquote von 75,0 % und übertrifft die stärksten Nicht-PhoneHarness-Einstellungen um 12,9 Prozentpunkte. PhoneHarness und PhoneHarness Bench spielen daher unterschiedliche, aber voneinander abhängige Rollen: Die Ausführungsumgebung macht gemischte Telefon-Workflows ausführbar, während der Benchmark misst, ob Agenten diese Umgebung zuverlässig und sicher nutzen können. Unsere Ergebnisse deuten darauf hin, dass zuverlässige Telefonautomatisierung von Aktionsoberflächenweiterleitung und verifizierbarer Ausführung abhängt, nicht nur von visueller GUI-Steuerung.

English

Phone agents are increasingly expected to complete real mobile workflows rather than merely predict the next screen action. However, much of the current mobile-agent literature still evaluates agents primarily as GUI controllers that observe a screen, emit taps and swipes, and are scored by target app state. Real phone-use tasks are broader: they require deciding when to use app GUIs, device-side commands, or structured tools, while leaving evidence that the intended side effect actually occurred. We introduce PhoneHarness, a mixed-action benchmark and execution harness for studying phone-use agents on verifiable mobile workflows. PhoneHarness runs a device-side agent loop over GUI, CLI, and host-side tool actions, combining deterministic action routing with bounded GUI delegation and auditable execution traces. Its benchmark, PhoneHarness Bench, evaluates whether agents complete tasks with observable side effects, not only whether they produce plausible final answers. On the annotated evaluation split, PhoneHarness reaches a 75.0% pass rate, outperforming the strongest non-PhoneHarness settings by 12.9 percentage points. PhoneHarness and PhoneHarness Bench therefore play distinct but mutually dependent roles: the harness makes mixed phone workflows executable, while the benchmark measures whether agents can use that harness reliably and safely. Our findings suggest that reliable phone automation depends on action-surface routing and verifiable execution, not only visual GUI control.