Обучение открытых моделей для агентного использования телефона

Аннотация

Телефоны становятся важной поверхностью выполнения для агентов общего назначения, однако обучение открытых моделей для надежного использования телефонов остается сложной задачей, поскольку среда, имеющая значение при развертывании — реальные устройства с работающими реальными приложениями — медленная, сохраняет состояние, имеет побочные эффекты и ее трудно сбросить или верифицировать, в то время как масштабируемые имитационные среды лишь приближают реальное поведение. Мы представляем PhoneBuddy — рецепт обучения и линейку открытых моделей для агентного использования телефонов, которая объединяет среду реальных приложений со средой имитационных приложений PhoneWorld, восстанавливающей запускаемые имитационные приложения на основе структуры использования реального GUI. PhoneBuddy сначала создает общий этап контролируемой донастройки на основе траекторий, собранных в обеих средах, а затем сравнивает обучение с подкреплением в реальных приложениях с смешанным обучением с подкреплением в обеих средах. В рамках оценки с участием людей на реальных телефонах, охватывающей 150 задач, включая приложения, мини-приложения и межприложенческие рабочие процессы, доля успешного выполнения задач увеличилась с 36,67% после контролируемой донастройки до 40,67% после обучения с подкреплением на реальных приложениях и до 45,33% после смешанного обучения с подкреплением. На AndroidWorld та же прогрессия возрастает с 60,3% до 77,2% и до 83,2%. Эти результаты показывают, что обучение на имитационных приложениях не является заменой обучению с подкреплением на реальных приложениях, а скорее дополнительным источником масштабируемого, сбрасываемого и автоматически проверяемого взаимодействия. Наибольший прирост наблюдается в задачах с приложениями и мини-приложениями, в то время как длительные межприложенческие рабочие процессы остаются важной открытой проблемой.

English

Phones are becoming an important execution surface for general-purpose agents, but training open models for reliable phone use remains difficult because the environment that matters at deployment, real devices running real apps, is slow, stateful, side-effectful, and hard to reset or verify, while scalable mock environments only approximate real behavior. We present PhoneBuddy, a training recipe and open-model line for agentic phone use that combines a real-app environment with a mock-app environment, PhoneWorld, which reconstructs runnable mock apps from real GUI usage structure. PhoneBuddy first builds a shared supervised fine-tuning stage from trajectories collected in both environments, then compares real-app RL against mixed RL across both environments. Across a 150-task human evaluation on real phones spanning apps, mini-apps, and cross-app workflows, task success rate improves from 36.67\% after supervised fine-tuning to 40.67\% after real-app RL and 45.33\% after mixed RL. On AndroidWorld, the same progression rises from 60.3\% to 77.2\% to 83.2\%. These results show that mock-app training is not a replacement for real-app RL, but a complementary source of scalable, resettable, and automatically checked interaction. The gains are strongest on app and mini-app tasks, while long-horizontal cross-app workflows remain an important open challenge.