Stapgewijze optimalisatie voor efficiënte computergebruik-agents
Step-level Optimization for Efficient Computer-use Agents
April 29, 2026
Auteurs: Jinbiao Wei, Kangqi Ni, Yilun Zhao, Guo Gan, Arman Cohan
cs.AI
Samenvatting
Computer-use agents bieden een veelbelovend pad naar algemne software-automatisering omdat ze rechtstreeks kunnen interageren met willekeurige grafische gebruikersinterfaces, in plaats van te vertrouwen op kwetsbare, toepassingsspecifieke integraties. Ondanks recente vooruitgang in benchmarkprestaties blijven krachtige computer-use agents in de praktijk duur en traag, aangezien de meeste systemen bij bijna elke interactiestap grote multimodale modellen aanroepen. Wij stellen dat deze uniforme toewijzing van rekenkracht fundamenteel inefficiënt is voor GUI-taken met een lange tijds horizon. Dergelijke trajecten zijn zeer heterogeen: veel stappen zijn routine en kunnen betrouwbaar worden afgehandeld door kleinere, goedkopere policies, terwijl fouten zich tendentieel concentreren op een relatief klein aantal hoogrisicomomenten. In computer-use benchmarks nemen deze fouten herhaaldelijk twee vormen aan: voortgangsstagnatie, waarbij de agent vastloopt, ineffectieve acties herhaalt of geen betekenisvolle vooruitgang boekt, en stille semantische drift, waarbij de agent doorgaat met lokaal plausibele acties nadat deze al is afgedwaald van het werkelijke gebruikersdoel. Om deze inefficiëntie aan te pakken, stellen we een gebeurtenisgestuurde, stap-level cascade voor voor computer-use agents. Deze voert standaard een kleine policy uit en schaalt alleen op naar een sterker model wanneer lichtgewicht, geleerde monitors een verhoogd risico detecteren. Ons framework combineert twee complementaire signalen: een Stuck Monitor die verslechterde voortgang detecteert uit de recente redenatie-actiegeschiedenis en herstel activeert, en een Milestone Monitor die semantisch betekenisvolle controlepunten identificeert waar sparse verificatie het meest informatief is voor het opsporen van drift. Dit ontwerp verandert altijd-aan inferentie met frontier-modellen in adaptieve, on-demand toewijzing van rekenkracht tijdens een zich ontwikkelende interactie. Het framework is modulair en implementatiegericht: het kan worden toegevoegd bovenop bestaande computer-use agents zonder de onderliggende agentarchitectuur te wijzigen of het grote model opnieuw te trainen.
English
Computer-use agents provide a promising path toward general software automation because they can interact directly with arbitrary graphical user interfaces instead of relying on brittle, application-specific integrations. Despite recent advances in benchmark performance, strong computer-use agents remain expensive and slow in practice, since most systems invoke large multimodal models at nearly every interaction step. We argue that this uniform allocation of compute is fundamentally inefficient for long-horizon GUI tasks. Such trajectories are highly heterogeneous: many steps are routine and can be handled reliably by smaller, cheaper policies, while errors tend to concentrate at a relatively small number of high-risk moments. Across computer-use benchmarks, these failures repeatedly take two forms: progress stalls, where the agent loops, repeats ineffective actions, or fails to make meaningful progress, and silent semantic drift, where the agent continues taking locally plausible actions after already deviating from the user's true goal. To address this inefficiency, we propose an event-driven, step-level cascade for computer-use agents that runs a small policy by default and escalates to a stronger model only when lightweight learned monitors detect elevated risk. Our framework combines two complementary signals: a Stuck Monitor that detects degraded progress from recent reasoning-action history and triggers recovery, and a Milestone Monitor that identifies semantically meaningful checkpoints where sparse verification is most informative for catching drift. This design turns always-on frontier-model inference into adaptive, on-demand compute allocation over the course of an evolving interaction. The framework is modular and deployment-oriented: it can be layered on top of existing computer-use agents without changing the underlying agent architecture or retraining the large model.