ChatPaper.aiChatPaper

STEVE: Пошаговый конвейер верификации для обучения агентов, работающих с компьютером

STEVE: AStep Verification Pipeline for Computer-use Agent Training

March 16, 2025
Авторы: Fanbin Lu, Zhisheng Zhong, Ziqin Wei, Shu Liu, Chi-Wing Fu, Jiaya Jia
cs.AI

Аннотация

Разработка ИИ-агентов для автономного взаимодействия с графическими пользовательскими интерфейсами представляет собой сложную и долгосрочную задачу. Недавние достижения в области законов масштабирования данных вдохновили нас на обучение агентов для работы с компьютером с использованием масштабированного набора инструкций, однако применение поведенческого клонирования для обучения агентов по-прежнему требует огромного количества высококачественных траекторий. Для удовлетворения потребности в масштабируемости мы разработали STEVE — конвейер пошаговой верификации для обучения агентов, взаимодействующих с компьютером. Сначала мы создаем обширный набор инструкций для таких агентов и собираем данные о траекториях с использованием некоторых субоптимальных агентов. GPT-4o используется для проверки корректности каждого шага в траекториях на основе скриншотов до и после выполнения действия, присваивая каждому шагу бинарную метку. Наконец, мы применяем оптимизацию по Канеману и Тверски для улучшения агента на основе бинарных пошаговых меток. Многочисленные эксперименты показывают, что наш агент превосходит подходы с контролируемым тонким настройкой, используя как положительные, так и отрицательные действия в рамках траектории. Кроме того, STEVE позволяет нам обучить 7B визуально-языковую модель в качестве агента для работы с компьютером, достигая лидирующих результатов в сложной среде живого рабочего стола WinAgentArena с высокой эффективностью и сниженными затратами. Код и данные: https://github.com/FanbinLu/STEVE.
English
Developing AI agents to autonomously manipulate graphical user interfaces is a long challenging task. Recent advances in data scaling law inspire us to train computer-use agents with a scaled instruction set, yet using behavior cloning to train agents still requires immense high-quality trajectories. To meet the scalability need, we designed STEVE, a step verification pipeline for computer-use agent training. First, we establish a large instruction set for computer-use agents and collect trajectory data with some suboptimal agents. GPT-4o is used to verify the correctness of each step in the trajectories based on the screens before and after the action execution, assigning each step with a binary label. Last, we adopt the Kahneman and Tversky Optimization to optimize the agent from the binary stepwise labels. Extensive experiments manifest that our agent outperforms supervised finetuning by leveraging both positive and negative actions within a trajectory. Also, STEVE enables us to train a 7B vision-language model as a computer-use agent, achieving leading performance in the challenging live desktop environment WinAgentArena with great efficiency at a reduced cost. Code and data: https://github.com/FanbinLu/STEVE.

Summary

AI-Generated Summary

PDF152March 20, 2025