L'Irragionevole Efficacia del Ridimensionamento degli Agenti per l'Uso del Computer
The Unreasonable Effectiveness of Scaling Agents for Computer Use
October 2, 2025
Autori: Gonzalo Gonzalez-Pumariega, Vincent Tu, Chih-Lun Lee, Jiachen Yang, Ang Li, Xin Eric Wang
cs.AI
Abstract
Gli agenti per l'uso del computer (CUAs) promettono di automatizzare le attività digitali quotidiane, ma la loro inaffidabilità e alta variabilità ne ostacolano l'applicazione a compiti complessi e a lungo termine. Introduciamo Behavior Best-of-N (bBoN), un metodo che scala sugli agenti generando più esecuzioni e selezionando tra di esse utilizzando narrazioni comportamentali che descrivono le esecuzioni degli agenti. Questo metodo consente sia un'ampia esplorazione che una selezione di traiettorie basata su principi, migliorando sostanzialmente la robustezza e i tassi di successo. Su OSWorld, il nostro metodo di scaling bBoN stabilisce un nuovo stato dell'arte (SoTA) al 69,9%, superando significativamente i metodi precedenti e avvicinandosi alle prestazioni umane al 72%, con ablazioni complete che convalidano le scelte progettuali chiave. Dimostriamo inoltre forti risultati di generalizzazione su diversi sistemi operativi in WindowsAgentArena e AndroidWorld. In modo cruciale, i nostri risultati evidenziano l'efficacia irragionevole dello scaling dei CUAs, quando eseguito correttamente: uno scaling efficace richiede una comprensione e una selezione strutturata delle traiettorie, e bBoN fornisce un framework pratico per raggiungere questo obiettivo.
English
Computer-use agents (CUAs) hold promise for automating everyday digital
tasks, but their unreliability and high variance hinder their application to
long-horizon, complex tasks. We introduce Behavior Best-of-N (bBoN), a method
that scales over agents by generating multiple rollouts and selecting among
them using behavior narratives that describe the agents' rollouts. It enables
both wide exploration and principled trajectory selection, substantially
improving robustness and success rates. On OSWorld, our bBoN scaling method
establishes a new state of the art (SoTA) at 69.9%, significantly outperforming
prior methods and approaching human-level performance at 72%, with
comprehensive ablations validating key design choices. We further demonstrate
strong generalization results to different operating systems on
WindowsAgentArena and AndroidWorld. Crucially, our results highlight the
unreasonable effectiveness of scaling CUAs, when you do it right: effective
scaling requires structured trajectory understanding and selection, and bBoN
provides a practical framework to achieve this.