SEAgent: Саморазвивающийся агент для работы с компьютером, способный к автономному обучению на основе опыта
SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience
August 6, 2025
Авторы: Zeyi Sun, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Tong Wu, Dahua Lin, Jiaqi Wang
cs.AI
Аннотация
Перепрофилирование крупных моделей обработки визуальной информации и текста (LVLMs) в агентов для работы с компьютером (CUAs) привело к значительным прорывам, в основном благодаря данным, размеченным человеком. Однако такие модели часто испытывают трудности с новым и специализированным программным обеспечением, особенно в сценариях, где отсутствуют аннотации, созданные человеком. Для решения этой проблемы мы предлагаем SEAgent — агентскую саморазвивающуюся структуру, которая позволяет CUAs автономно эволюционировать через взаимодействие с незнакомым программным обеспечением. В частности, SEAgent наделяет агентов для работы с компьютером способностью самостоятельно осваивать новые программные среды посредством обучения на опыте, где агенты исследуют новое ПО, учатся через итеративные пробы и ошибки и постепенно решают автоматически генерируемые задачи, организованные от простых к сложным. Для достижения этой цели мы разработали Модель Состояния Мира для пошаговой оценки траекторий, а также Генератор Учебного Плана, который создает всё более разнообразные и сложные задачи. Политика агента обновляется через обучение на опыте, включающее в себя адверсарное подражание неудачным действиям и Оптимизацию Относительной Политики Группы (GRPO) для успешных действий. Кроме того, мы внедряем стратегию обучения от специалиста к универсалу, которая интегрирует индивидуальные опытные знания от специализированных агентов, способствуя развитию более сильного универсального CUA, способного к непрерывной автономной эволюции. Этот унифицированный агент в конечном итоге демонстрирует производительность, превосходящую ансамбли индивидуальных специализированных агентов в их специализированном ПО. Мы подтверждаем эффективность SEAgent в пяти новых программных средах в рамках OS-World. Наш подход обеспечивает значительное улучшение успешности на 23,2%, с 11,3% до 34,5%, по сравнению с конкурентоспособным открытым CUA, таким как UI-TARS.
English
Repurposing large vision-language models (LVLMs) as computer use agents
(CUAs) has led to substantial breakthroughs, primarily driven by human-labeled
data. However, these models often struggle with novel and specialized software,
particularly in scenarios lacking human annotations. To address this challenge,
we propose SEAgent, an agentic self-evolving framework enabling CUAs to
autonomously evolve through interactions with unfamiliar software.
Specifically, SEAgent empowers computer-use agents to autonomously master novel
software environments via experiential learning, where agents explore new
software, learn through iterative trial-and-error, and progressively tackle
auto-generated tasks organized from simple to complex. To achieve this goal, we
design a World State Model for step-wise trajectory assessment, along with a
Curriculum Generator that generates increasingly diverse and challenging tasks.
The agent's policy is updated through experiential learning, comprised of
adversarial imitation of failure actions and Group Relative Policy Optimization
(GRPO) on successful ones. Furthermore, we introduce a specialist-to-generalist
training strategy that integrates individual experiential insights from
specialist agents, facilitating the development of a stronger generalist CUA
capable of continuous autonomous evolution. This unified agent ultimately
achieves performance surpassing ensembles of individual specialist agents on
their specialized software. We validate the effectiveness of SEAgent across
five novel software environments within OS-World. Our approach achieves a
significant improvement of 23.2% in success rate, from 11.3% to 34.5%, over a
competitive open-source CUA, i.e., UI-TARS.