Training offener Modelle für agentische Telefonnutzung

Zusammenfassung

Smartphones werden zunehmend zu einer wichtigen Ausführungsumgebung für universelle Agenten, jedoch bleibt das Training offener Modelle für eine zuverlässige Smartphone-Nutzung schwierig, da die für die Bereitstellung relevante Umgebung – reale Geräte mit echten Apps – langsam, zustandsabhängig, nebenwirkungsbehaftet und schwer zurückzusetzen oder zu verifizieren ist, während skalierbare Mock-Umgebungen nur eine Annäherung an das reale Verhalten darstellen. Wir präsentieren PhoneBuddy, ein Trainingsrezept und eine Modellreihe für agentische Smartphone-Nutzung, das eine Umgebung mit echten Apps mit einer Mock-App-Umgebung, PhoneWorld, kombiniert, die aus der realen GUI-Nutzungsstruktur ausführbare Mock-Apps rekonstruiert. PhoneBuddy erstellt zunächst eine gemeinsame Phase des überwachten Feintunings aus Trajektorien, die in beiden Umgebungen gesammelt wurden, und vergleicht dann Reinforcement Learning (RL) mit echten Apps mit gemischtem RL über beide Umgebungen hinweg. In einer 150 Aufgaben umfassenden menschlichen Evaluation auf echten Smartphones, die Apps, Mini-Apps und abteilungsübergreifende Workflows umfasst, verbessert sich die Aufgabenerfolgsrate von 36,67 % nach überwachtem Feintuning auf 40,67 % nach RL mit echten Apps und 45,33 % nach gemischtem RL. Auf AndroidWorld steigt dieselbe Progression von 60,3 % auf 77,2 % auf 83,2 %. Diese Ergebnisse zeigen, dass Mock-App-Training kein Ersatz für RL mit echten Apps ist, sondern eine komplementäre Quelle für skalierbare, zurücksetzbare und automatisch überprüfbare Interaktionen darstellt. Die größten Verbesserungen treten bei App- und Mini-App-Aufgaben auf, während langfristige abteilungsübergreifende Workflows eine wichtige offene Herausforderung bleiben.

English

Phones are becoming an important execution surface for general-purpose agents, but training open models for reliable phone use remains difficult because the environment that matters at deployment, real devices running real apps, is slow, stateful, side-effectful, and hard to reset or verify, while scalable mock environments only approximate real behavior. We present PhoneBuddy, a training recipe and open-model line for agentic phone use that combines a real-app environment with a mock-app environment, PhoneWorld, which reconstructs runnable mock apps from real GUI usage structure. PhoneBuddy first builds a shared supervised fine-tuning stage from trajectories collected in both environments, then compares real-app RL against mixed RL across both environments. Across a 150-task human evaluation on real phones spanning apps, mini-apps, and cross-app workflows, task success rate improves from 36.67\% after supervised fine-tuning to 40.67\% after real-app RL and 45.33\% after mixed RL. On AndroidWorld, the same progression rises from 60.3\% to 77.2\% to 83.2\%. These results show that mock-app training is not a replacement for real-app RL, but a complementary source of scalable, resettable, and automatically checked interaction. The gains are strongest on app and mini-app tasks, while long-horizontal cross-app workflows remain an important open challenge.