STEVE: Un Pipeline de Verificación en Dos Pasos para el Entrenamiento de Agentes de Uso Informático
STEVE: AStep Verification Pipeline for Computer-use Agent Training
March 16, 2025
Autores: Fanbin Lu, Zhisheng Zhong, Ziqin Wei, Shu Liu, Chi-Wing Fu, Jiaya Jia
cs.AI
Resumen
Desarrollar agentes de IA para manipular autónomamente interfaces gráficas de usuario es una tarea desafiante y de larga duración. Los recientes avances en las leyes de escalamiento de datos nos inspiran a entrenar agentes de uso informático con un conjunto de instrucciones escalado, aunque el uso de clonación de comportamiento para entrenar agentes aún requiere una inmensa cantidad de trayectorias de alta calidad. Para satisfacer la necesidad de escalabilidad, diseñamos STEVE, una canalización de verificación paso a paso para el entrenamiento de agentes de uso informático. Primero, establecemos un gran conjunto de instrucciones para agentes de uso informático y recopilamos datos de trayectorias con algunos agentes subóptimos. GPT-4o se utiliza para verificar la corrección de cada paso en las trayectorias basándose en las pantallas antes y después de la ejecución de la acción, asignando a cada paso una etiqueta binaria. Finalmente, adoptamos la Optimización de Kahneman y Tversky para optimizar el agente a partir de las etiquetas binarias paso a paso. Experimentos extensos demuestran que nuestro agente supera el ajuste fino supervisado al aprovechar tanto las acciones positivas como las negativas dentro de una trayectoria. Además, STEVE nos permite entrenar un modelo de visión-lenguaje de 7B como agente de uso informático, logrando un rendimiento líder en el desafiante entorno de escritorio en vivo WinAgentArena con gran eficiencia y a un costo reducido. Código y datos: https://github.com/FanbinLu/STEVE.
English
Developing AI agents to autonomously manipulate graphical user interfaces is
a long challenging task. Recent advances in data scaling law inspire us to
train computer-use agents with a scaled instruction set, yet using behavior
cloning to train agents still requires immense high-quality trajectories. To
meet the scalability need, we designed STEVE, a step verification pipeline for
computer-use agent training. First, we establish a large instruction set for
computer-use agents and collect trajectory data with some suboptimal agents.
GPT-4o is used to verify the correctness of each step in the trajectories based
on the screens before and after the action execution, assigning each step with
a binary label. Last, we adopt the Kahneman and Tversky Optimization to
optimize the agent from the binary stepwise labels. Extensive experiments
manifest that our agent outperforms supervised finetuning by leveraging both
positive and negative actions within a trajectory. Also, STEVE enables us to
train a 7B vision-language model as a computer-use agent, achieving leading
performance in the challenging live desktop environment WinAgentArena with
great efficiency at a reduced cost. Code and data:
https://github.com/FanbinLu/STEVE.Summary
AI-Generated Summary