L'Irragionevole Efficacia del Ridimensionamento degli Agenti per l'Uso del Computer

Abstract

Gli agenti per l'uso del computer (CUAs) promettono di automatizzare le attività digitali quotidiane, ma la loro inaffidabilità e alta variabilità ne ostacolano l'applicazione a compiti complessi e a lungo termine. Introduciamo Behavior Best-of-N (bBoN), un metodo che scala sugli agenti generando più esecuzioni e selezionando tra di esse utilizzando narrazioni comportamentali che descrivono le esecuzioni degli agenti. Questo metodo consente sia un'ampia esplorazione che una selezione di traiettorie basata su principi, migliorando sostanzialmente la robustezza e i tassi di successo. Su OSWorld, il nostro metodo di scaling bBoN stabilisce un nuovo stato dell'arte (SoTA) al 69,9%, superando significativamente i metodi precedenti e avvicinandosi alle prestazioni umane al 72%, con ablazioni complete che convalidano le scelte progettuali chiave. Dimostriamo inoltre forti risultati di generalizzazione su diversi sistemi operativi in WindowsAgentArena e AndroidWorld. In modo cruciale, i nostri risultati evidenziano l'efficacia irragionevole dello scaling dei CUAs, quando eseguito correttamente: uno scaling efficace richiede una comprensione e una selezione strutturata delle traiettorie, e bBoN fornisce un framework pratico per raggiungere questo obiettivo.

English

Computer-use agents (CUAs) hold promise for automating everyday digital tasks, but their unreliability and high variance hinder their application to long-horizon, complex tasks. We introduce Behavior Best-of-N (bBoN), a method that scales over agents by generating multiple rollouts and selecting among them using behavior narratives that describe the agents' rollouts. It enables both wide exploration and principled trajectory selection, substantially improving robustness and success rates. On OSWorld, our bBoN scaling method establishes a new state of the art (SoTA) at 69.9%, significantly outperforming prior methods and approaching human-level performance at 72%, with comprehensive ablations validating key design choices. We further demonstrate strong generalization results to different operating systems on WindowsAgentArena and AndroidWorld. Crucially, our results highlight the unreasonable effectiveness of scaling CUAs, when you do it right: effective scaling requires structured trajectory understanding and selection, and bBoN provides a practical framework to achieve this.

L'Irragionevole Efficacia del Ridimensionamento degli Agenti per l'Uso del Computer

The Unreasonable Effectiveness of Scaling Agents for Computer Use

Abstract

Support