Entrenamiento de modelos abiertos para el uso agéntico del teléfono

Resumen

Los teléfonos se están convirtiendo en una superficie de ejecución importante para agentes de propósito general, pero entrenar modelos abiertos para un uso fiable del teléfono sigue siendo difícil porque el entorno que importa en el despliegue —dispositivos reales ejecutando aplicaciones reales— es lento, con estado, con efectos secundarios y difícil de reiniciar o verificar, mientras que los entornos simulados escalables solo aproximan el comportamiento real. Presentamos PhoneBuddy, una receta de entrenamiento y una línea de modelos abiertos para el uso agéntico del teléfono que combina un entorno real de aplicaciones con un entorno simulado, PhoneWorld, que reconstruye aplicaciones simuladas ejecutables a partir de la estructura real de uso de la interfaz gráfica. PhoneBuddy primero construye una etapa compartida de ajuste fino supervisado a partir de trayectorias recolectadas en ambos entornos, y luego compara el aprendizaje por refuerzo (RL) en entorno real con el RL mixto en ambos entornos. En una evaluación humana de 150 tareas en teléfonos reales que abarca aplicaciones, mini-aplicaciones y flujos de trabajo entre aplicaciones, la tasa de éxito de las tareas mejora del 36,67 % después del ajuste fino supervisado al 40,67 % después del RL en entorno real y al 45,33 % después del RL mixto. En AndroidWorld, la misma progresión aumenta del 60,3 % al 77,2 % y al 83,2 %. Estos resultados muestran que el entrenamiento con aplicaciones simuladas no reemplaza al RL en entorno real, sino que es una fuente complementaria de interacción escalable, reiniciable y verificable automáticamente. Las mejoras son más pronunciadas en tareas de aplicaciones y mini-aplicaciones, mientras que los flujos de trabajo entre aplicaciones de largo alcance siguen siendo un desafío abierto importante.

English

Phones are becoming an important execution surface for general-purpose agents, but training open models for reliable phone use remains difficult because the environment that matters at deployment, real devices running real apps, is slow, stateful, side-effectful, and hard to reset or verify, while scalable mock environments only approximate real behavior. We present PhoneBuddy, a training recipe and open-model line for agentic phone use that combines a real-app environment with a mock-app environment, PhoneWorld, which reconstructs runnable mock apps from real GUI usage structure. PhoneBuddy first builds a shared supervised fine-tuning stage from trajectories collected in both environments, then compares real-app RL against mixed RL across both environments. Across a 150-task human evaluation on real phones spanning apps, mini-apps, and cross-app workflows, task success rate improves from 36.67\% after supervised fine-tuning to 40.67\% after real-app RL and 45.33\% after mixed RL. On AndroidWorld, the same progression rises from 60.3\% to 77.2\% to 83.2\%. These results show that mock-app training is not a replacement for real-app RL, but a complementary source of scalable, resettable, and automatically checked interaction. The gains are strongest on app and mini-app tasks, while long-horizontal cross-app workflows remain an important open challenge.