STEVE : Un pipeline de vérification en deux étapes pour l'entraînement d'agents informatiques

papers.abstract

Le développement d'agents d'IA capables de manipuler de manière autonome des interfaces graphiques utilisateur constitue une tâche complexe et de longue haleine. Les récentes avancées dans les lois de mise à l'échelle des données nous inspirent à entraîner des agents d'utilisation informatique avec un ensemble d'instructions mis à l'échelle, mais l'utilisation du clonage comportemental pour entraîner ces agents nécessite toujours une quantité considérable de trajectoires de haute qualité. Pour répondre au besoin de scalabilité, nous avons conçu STEVE, un pipeline de vérification étape par étape pour l'entraînement des agents d'utilisation informatique. Tout d'abord, nous établissons un vaste ensemble d'instructions pour ces agents et collectons des données de trajectoires à l'aide de certains agents sous-optimaux. GPT-4o est utilisé pour vérifier la correction de chaque étape dans les trajectoires en se basant sur les écrans avant et après l'exécution de l'action, attribuant ainsi à chaque étape une étiquette binaire. Enfin, nous adoptons l'optimisation de Kahneman et Tversky pour optimiser l'agent à partir des étiquettes binaires étape par étape. Des expériences approfondies montrent que notre agent surpasse l'affinage supervisé en exploitant à la fois les actions positives et négatives au sein d'une trajectoire. De plus, STEVE nous permet d'entraîner un modèle vision-langage de 7 milliards de paramètres en tant qu'agent d'utilisation informatique, atteignant des performances de pointe dans l'environnement de bureau en direct WinAgentArena avec une grande efficacité et à un coût réduit. Code et données : https://github.com/FanbinLu/STEVE.

English

Developing AI agents to autonomously manipulate graphical user interfaces is a long challenging task. Recent advances in data scaling law inspire us to train computer-use agents with a scaled instruction set, yet using behavior cloning to train agents still requires immense high-quality trajectories. To meet the scalability need, we designed STEVE, a step verification pipeline for computer-use agent training. First, we establish a large instruction set for computer-use agents and collect trajectory data with some suboptimal agents. GPT-4o is used to verify the correctness of each step in the trajectories based on the screens before and after the action execution, assigning each step with a binary label. Last, we adopt the Kahneman and Tversky Optimization to optimize the agent from the binary stepwise labels. Extensive experiments manifest that our agent outperforms supervised finetuning by leveraging both positive and negative actions within a trajectory. Also, STEVE enables us to train a 7B vision-language model as a computer-use agent, achieving leading performance in the challenging live desktop environment WinAgentArena with great efficiency at a reduced cost. Code and data: https://github.com/FanbinLu/STEVE.

STEVE : Un pipeline de vérification en deux étapes pour l'entraînement d'agents informatiques

STEVE: AStep Verification Pipeline for Computer-use Agent Training

papers.abstract

Support