ChatPaper.aiChatPaper

L'efficacité déraisonnable des agents de mise à l'échelle pour l'utilisation des ordinateurs

The Unreasonable Effectiveness of Scaling Agents for Computer Use

October 2, 2025
papers.authors: Gonzalo Gonzalez-Pumariega, Vincent Tu, Chih-Lun Lee, Jiachen Yang, Ang Li, Xin Eric Wang
cs.AI

papers.abstract

Les agents d'utilisation informatique (CUAs) offrent des perspectives prometteuses pour l'automatisation des tâches numériques quotidiennes, mais leur manque de fiabilité et leur grande variabilité limitent leur application à des tâches complexes et à long terme. Nous introduisons la méthode Behavior Best-of-N (bBoN), qui permet de mettre à l'échelle ces agents en générant plusieurs déploiements et en sélectionnant parmi eux à l'aide de récits comportementaux décrivant les déploiements des agents. Cette méthode permet à la fois une exploration étendue et une sélection de trajectoires fondée sur des principes, améliorant considérablement la robustesse et les taux de réussite. Sur OSWorld, notre méthode de mise à l'échelle bBoN établit un nouvel état de l'art (SoTA) à 69,9 %, surpassant significativement les méthodes précédentes et s'approchant des performances humaines à 72 %, avec des ablations complètes validant les choix clés de conception. Nous démontrons également de solides résultats de généralisation sur différents systèmes d'exploitation avec WindowsAgentArena et AndroidWorld. De manière cruciale, nos résultats mettent en évidence l'efficacité déraisonnable de la mise à l'échelle des CUAs lorsqu'elle est bien réalisée : une mise à l'échelle efficace nécessite une compréhension et une sélection structurées des trajectoires, et bBoN fournit un cadre pratique pour y parvenir.
English
Computer-use agents (CUAs) hold promise for automating everyday digital tasks, but their unreliability and high variance hinder their application to long-horizon, complex tasks. We introduce Behavior Best-of-N (bBoN), a method that scales over agents by generating multiple rollouts and selecting among them using behavior narratives that describe the agents' rollouts. It enables both wide exploration and principled trajectory selection, substantially improving robustness and success rates. On OSWorld, our bBoN scaling method establishes a new state of the art (SoTA) at 69.9%, significantly outperforming prior methods and approaching human-level performance at 72%, with comprehensive ablations validating key design choices. We further demonstrate strong generalization results to different operating systems on WindowsAgentArena and AndroidWorld. Crucially, our results highlight the unreasonable effectiveness of scaling CUAs, when you do it right: effective scaling requires structured trajectory understanding and selection, and bBoN provides a practical framework to achieve this.
PDF222October 3, 2025