STEVE : Un pipeline de vérification en deux étapes pour l'entraînement d'agents informatiques
STEVE: AStep Verification Pipeline for Computer-use Agent Training
March 16, 2025
Auteurs: Fanbin Lu, Zhisheng Zhong, Ziqin Wei, Shu Liu, Chi-Wing Fu, Jiaya Jia
cs.AI
Résumé
Le développement d'agents d'IA capables de manipuler de manière autonome des interfaces graphiques utilisateur constitue une tâche complexe et de longue haleine. Les récentes avancées dans les lois de mise à l'échelle des données nous inspirent à entraîner des agents d'utilisation informatique avec un ensemble d'instructions mis à l'échelle, mais l'utilisation du clonage comportemental pour entraîner ces agents nécessite toujours une quantité considérable de trajectoires de haute qualité. Pour répondre au besoin de scalabilité, nous avons conçu STEVE, un pipeline de vérification étape par étape pour l'entraînement des agents d'utilisation informatique. Tout d'abord, nous établissons un vaste ensemble d'instructions pour ces agents et collectons des données de trajectoires à l'aide de certains agents sous-optimaux. GPT-4o est utilisé pour vérifier la correction de chaque étape dans les trajectoires en se basant sur les écrans avant et après l'exécution de l'action, attribuant ainsi à chaque étape une étiquette binaire. Enfin, nous adoptons l'optimisation de Kahneman et Tversky pour optimiser l'agent à partir des étiquettes binaires étape par étape. Des expériences approfondies montrent que notre agent surpasse l'affinage supervisé en exploitant à la fois les actions positives et négatives au sein d'une trajectoire. De plus, STEVE nous permet d'entraîner un modèle vision-langage de 7 milliards de paramètres en tant qu'agent d'utilisation informatique, atteignant des performances de pointe dans l'environnement de bureau en direct WinAgentArena avec une grande efficacité et à un coût réduit. Code et données : https://github.com/FanbinLu/STEVE.
English
Developing AI agents to autonomously manipulate graphical user interfaces is
a long challenging task. Recent advances in data scaling law inspire us to
train computer-use agents with a scaled instruction set, yet using behavior
cloning to train agents still requires immense high-quality trajectories. To
meet the scalability need, we designed STEVE, a step verification pipeline for
computer-use agent training. First, we establish a large instruction set for
computer-use agents and collect trajectory data with some suboptimal agents.
GPT-4o is used to verify the correctness of each step in the trajectories based
on the screens before and after the action execution, assigning each step with
a binary label. Last, we adopt the Kahneman and Tversky Optimization to
optimize the agent from the binary stepwise labels. Extensive experiments
manifest that our agent outperforms supervised finetuning by leveraging both
positive and negative actions within a trajectory. Also, STEVE enables us to
train a 7B vision-language model as a computer-use agent, achieving leading
performance in the challenging live desktop environment WinAgentArena with
great efficiency at a reduced cost. Code and data:
https://github.com/FanbinLu/STEVE.Summary
AI-Generated Summary