Пошаговая оптимизация для эффективных агентов компьютерного взаимодействия
Step-level Optimization for Efficient Computer-use Agents
April 29, 2026
Авторы: Jinbiao Wei, Kangqi Ni, Yilun Zhao, Guo Gan, Arman Cohan
cs.AI
Аннотация
Агенты компьютерного взаимодействия открывают перспективный путь к созданию универсальной программной автоматизации, поскольку они способны напрямую взаимодействовать с произвольными графическими интерфейсами, вместо того чтобы полагаться на хрупкие, специфичные для приложений интеграции. Несмотря на недавний прогресс в производительности по бенчмаркам, мощные агенты компьютерного взаимодействия на практике остаются дорогими и медленными, поскольку большинство систем задействуют большие мультимодальные модели практически на каждом шаге взаимодействия. Мы утверждаем, что такое равномерное распределение вычислительных ресурсов принципиально неэффективно для долгосрочных задач работы с GUI. Такие траектории высоко неоднородны: многие шаги являются рутинными и могут надежно обрабатываться более мелкими и дешевыми политиками, тогда как ошибки имеют тенденцию концентрироваться на относительно небольшом количестве моментов высокого риска. В различных бенчмарках компьютерного взаимодействия эти сбои повторяются в двух формах: остановки прогресса, когда агент зацикливается, повторяет неэффективные действия или не может достичь значимого продвижения, и тихий семантический дрейф, когда агент продолжает выполнять локально правдоподобные действия после того, как уже отклонился от истинной цели пользователя. Для решения этой неэффективности мы предлагаем каскадную архитектуру на уровне шагов, управляемую событиями, для агентов компьютерного взаимодействия, которая по умолчанию использует небольшую политику и эскалирует к более мощной модели только тогда, когда легковесные обученные мониторы обнаруживают повышенный риск. Наша структура объединяет два взаимодополняющих сигнала: Монитор Зависания, который обнаруживает деградацию прогресса по истории недавних рассуждений и действий и инициирует восстановление, и Монитор Контрольных Точек, который идентифицирует семантически значимые вехи, где разреженная верификация наиболее информативна для обнаружения дрейфа. Этот подход превращает постоянный вывод frontier-моделей в адассивное, выделяемое по требованию распределение вычислительных ресурсов в процессе развивающегося взаимодействия. Структура является модульной и ориентированной на развертывание: она может быть надстроена поверх существующих агентов компьютерного взаимодействия без изменения базовой архитектуры агента или переобучения большой модели.
English
Computer-use agents provide a promising path toward general software automation because they can interact directly with arbitrary graphical user interfaces instead of relying on brittle, application-specific integrations. Despite recent advances in benchmark performance, strong computer-use agents remain expensive and slow in practice, since most systems invoke large multimodal models at nearly every interaction step. We argue that this uniform allocation of compute is fundamentally inefficient for long-horizon GUI tasks. Such trajectories are highly heterogeneous: many steps are routine and can be handled reliably by smaller, cheaper policies, while errors tend to concentrate at a relatively small number of high-risk moments. Across computer-use benchmarks, these failures repeatedly take two forms: progress stalls, where the agent loops, repeats ineffective actions, or fails to make meaningful progress, and silent semantic drift, where the agent continues taking locally plausible actions after already deviating from the user's true goal. To address this inefficiency, we propose an event-driven, step-level cascade for computer-use agents that runs a small policy by default and escalates to a stronger model only when lightweight learned monitors detect elevated risk. Our framework combines two complementary signals: a Stuck Monitor that detects degraded progress from recent reasoning-action history and triggers recovery, and a Milestone Monitor that identifies semantically meaningful checkpoints where sparse verification is most informative for catching drift. This design turns always-on frontier-model inference into adaptive, on-demand compute allocation over the course of an evolving interaction. The framework is modular and deployment-oriented: it can be layered on top of existing computer-use agents without changing the underlying agent architecture or retraining the large model.