OS-Genesis: Automatización de la Construcción de Trayectorias de Agentes GUI a través de la Síntesis Inversa de TareasOS-Genesis: Automating GUI Agent Trajectory Construction via Reverse
Task Synthesis
Los agentes de Interfaz Gráfica de Usuario (GUI) impulsados por Modelos de Visión-Lenguaje (VLM) han demostrado capacidad de control de computadora similar a la humana. A pesar de su utilidad en el avance de la automatización digital, persiste un cuello de botella crítico: la recopilación de datos de trayectoria de alta calidad para el entrenamiento. Las prácticas comunes para recopilar dichos datos dependen de la supervisión humana o la generación de datos sintéticos mediante la ejecución de tareas predefinidas, que son o bien intensivas en recursos o no pueden garantizar la calidad de los datos. Además, estos métodos sufren de una diversidad limitada de datos y brechas significativas entre los datos sintéticos y los entornos del mundo real. Para abordar estos desafíos, proponemos OS-Genesis, un nuevo proceso de síntesis de datos de GUI que invierte el proceso convencional de recopilación de trayectorias. En lugar de depender de tareas predefinidas, OS-Genesis permite a los agentes primero percibir los entornos y realizar interacciones paso a paso, para luego derivar retrospectivamente tareas de alta calidad que permitan la exploración a nivel de trayectoria. Luego se emplea un modelo de recompensa de trayectoria para garantizar la calidad de las trayectorias generadas. Demostramos que entrenar agentes de GUI con OS-Genesis mejora significativamente su rendimiento en desafiantes benchmarks en línea. Un análisis detallado valida aún más la eficiencia de OS-Genesis y su calidad y diversidad de datos superiores en comparación con los métodos de síntesis existentes. Nuestros códigos, datos y puntos de control están disponibles en https://qiushisun.github.io/OS-Genesis-Home/{Página de inicio de OS-Genesis}.