STEVE: Un Pipeline de Verificación en Dos Pasos para el Entrenamiento de Agentes de Uso Informático

Resumen

Desarrollar agentes de IA para manipular autónomamente interfaces gráficas de usuario es una tarea desafiante y de larga duración. Los recientes avances en las leyes de escalamiento de datos nos inspiran a entrenar agentes de uso informático con un conjunto de instrucciones escalado, aunque el uso de clonación de comportamiento para entrenar agentes aún requiere una inmensa cantidad de trayectorias de alta calidad. Para satisfacer la necesidad de escalabilidad, diseñamos STEVE, una canalización de verificación paso a paso para el entrenamiento de agentes de uso informático. Primero, establecemos un gran conjunto de instrucciones para agentes de uso informático y recopilamos datos de trayectorias con algunos agentes subóptimos. GPT-4o se utiliza para verificar la corrección de cada paso en las trayectorias basándose en las pantallas antes y después de la ejecución de la acción, asignando a cada paso una etiqueta binaria. Finalmente, adoptamos la Optimización de Kahneman y Tversky para optimizar el agente a partir de las etiquetas binarias paso a paso. Experimentos extensos demuestran que nuestro agente supera el ajuste fino supervisado al aprovechar tanto las acciones positivas como las negativas dentro de una trayectoria. Además, STEVE nos permite entrenar un modelo de visión-lenguaje de 7B como agente de uso informático, logrando un rendimiento líder en el desafiante entorno de escritorio en vivo WinAgentArena con gran eficiencia y a un costo reducido. Código y datos: https://github.com/FanbinLu/STEVE.

English

Developing AI agents to autonomously manipulate graphical user interfaces is a long challenging task. Recent advances in data scaling law inspire us to train computer-use agents with a scaled instruction set, yet using behavior cloning to train agents still requires immense high-quality trajectories. To meet the scalability need, we designed STEVE, a step verification pipeline for computer-use agent training. First, we establish a large instruction set for computer-use agents and collect trajectory data with some suboptimal agents. GPT-4o is used to verify the correctness of each step in the trajectories based on the screens before and after the action execution, assigning each step with a binary label. Last, we adopt the Kahneman and Tversky Optimization to optimize the agent from the binary stepwise labels. Extensive experiments manifest that our agent outperforms supervised finetuning by leveraging both positive and negative actions within a trajectory. Also, STEVE enables us to train a 7B vision-language model as a computer-use agent, achieving leading performance in the challenging live desktop environment WinAgentArena with great efficiency at a reduced cost. Code and data: https://github.com/FanbinLu/STEVE.

STEVE: Un Pipeline de Verificación en Dos Pasos para el Entrenamiento de Agentes de Uso Informático

STEVE: AStep Verification Pipeline for Computer-use Agent Training

Resumen

Support