Optimisation au Niveau des Étapes pour des Agents Informatiques Efficaces
Step-level Optimization for Efficient Computer-use Agents
April 29, 2026
Auteurs: Jinbiao Wei, Kangqi Ni, Yilun Zhao, Guo Gan, Arman Cohan
cs.AI
Résumé
Les agents d'utilisation informatique offrent une voie prometteuse vers l'automatisation logicielle générale car ils peuvent interagir directement avec des interfaces graphiques arbitraires sans dépendre d'intégrations fragiles spécifiques aux applications. Malgré les récents progrès en matière de performances sur les benchmarks, les agents d'utilisation informatique performants restent coûteux et lents en pratique, car la plupart des systèmes invoquent de grands modèles multimodaux à presque chaque étape d'interaction. Nous soutenons que cette allocation uniforme de ressources de calcul est fondamentalement inefficace pour les tâches GUI à long horizon. Ces trajectoires sont très hétérogènes : de nombreuses étapes sont routinières et peuvent être gérées de manière fiable par des politiques plus petites et moins chères, tandis que les erreurs tendent à se concentrer sur un nombre relativement faible de moments à haut risque. Dans les benchmarks d'utilisation informatique, ces échecs prennent systématiquement deux formes : des blocages de progression, où l'agent boucle, répète des actions inefficaces ou ne parvient pas à réaliser des progrès significatifs, et une dérive sémantique silencieuse, où l'agent continue d'effectuer des actions localement plausibles après s'être déjà écarté du véritable objectif de l'utilisateur. Pour remédier à cette inefficacité, nous proposons une cascade déclenchée par événements au niveau des étapes pour les agents d'utilisation informatique, qui exécute une petite politique par défaut et n'escalade vers un modèle plus puissant que lorsque des moniteurs légers détectent un risque élevé. Notre cadre combine deux signaux complémentaires : un Moniteur de Blocage qui détecte une dégradation de la progression à partir de l'historique récent raisonnement-action et déclenche une récupération, et un Moniteur d'Étapes Clés qui identifie des points de contrôle sémantiquement significatifs où une vérification éparse est la plus informative pour détecter la dérive. Cette conception transforme l'inférence permanente sur des modèles de pointe en une allocation de calcul adaptive et à la demande au cours d'une interaction évolutive. Le cadre est modulaire et orienté déploiement : il peut être superposé à des agents d'utilisation informatique existants sans modifier l'architecture sous-jacente de l'agent ni recycler le grand modèle.
English
Computer-use agents provide a promising path toward general software automation because they can interact directly with arbitrary graphical user interfaces instead of relying on brittle, application-specific integrations. Despite recent advances in benchmark performance, strong computer-use agents remain expensive and slow in practice, since most systems invoke large multimodal models at nearly every interaction step. We argue that this uniform allocation of compute is fundamentally inefficient for long-horizon GUI tasks. Such trajectories are highly heterogeneous: many steps are routine and can be handled reliably by smaller, cheaper policies, while errors tend to concentrate at a relatively small number of high-risk moments. Across computer-use benchmarks, these failures repeatedly take two forms: progress stalls, where the agent loops, repeats ineffective actions, or fails to make meaningful progress, and silent semantic drift, where the agent continues taking locally plausible actions after already deviating from the user's true goal. To address this inefficiency, we propose an event-driven, step-level cascade for computer-use agents that runs a small policy by default and escalates to a stronger model only when lightweight learned monitors detect elevated risk. Our framework combines two complementary signals: a Stuck Monitor that detects degraded progress from recent reasoning-action history and triggers recovery, and a Milestone Monitor that identifies semantically meaningful checkpoints where sparse verification is most informative for catching drift. This design turns always-on frontier-model inference into adaptive, on-demand compute allocation over the course of an evolving interaction. The framework is modular and deployment-oriented: it can be layered on top of existing computer-use agents without changing the underlying agent architecture or retraining the large model.