A Eficácia Irracional da Escalonagem de Agentes para Uso em Computadores
The Unreasonable Effectiveness of Scaling Agents for Computer Use
October 2, 2025
Autores: Gonzalo Gonzalez-Pumariega, Vincent Tu, Chih-Lun Lee, Jiachen Yang, Ang Li, Xin Eric Wang
cs.AI
Resumo
Agentes de uso computacional (CUAs) mostram potencial para automatizar tarefas digitais cotidianas, mas sua falta de confiabilidade e alta variabilidade dificultam sua aplicação em tarefas complexas de longo prazo. Apresentamos o Behavior Best-of-N (bBoN), um método que escala a atuação de agentes ao gerar múltiplas execuções e selecionar entre elas usando narrativas comportamentais que descrevem as execuções dos agentes. Isso permite tanto uma ampla exploração quanto uma seleção de trajetórias fundamentada, melhorando substancialmente a robustez e as taxas de sucesso. No OSWorld, nosso método de escalonamento bBoN estabelece um novo estado da arte (SoTA) com 69,9%, superando significativamente métodos anteriores e se aproximando do desempenho humano em 72%, com análises abrangentes validando escolhas-chave de design. Além disso, demonstramos resultados fortes de generalização para diferentes sistemas operacionais no WindowsAgentArena e no AndroidWorld. Crucialmente, nossos resultados destacam a eficácia surpreendente de escalonar CUAs quando feito corretamente: o escalonamento eficaz requer uma compreensão e seleção estruturada de trajetórias, e o bBoN fornece uma estrutura prática para alcançar isso.
English
Computer-use agents (CUAs) hold promise for automating everyday digital
tasks, but their unreliability and high variance hinder their application to
long-horizon, complex tasks. We introduce Behavior Best-of-N (bBoN), a method
that scales over agents by generating multiple rollouts and selecting among
them using behavior narratives that describe the agents' rollouts. It enables
both wide exploration and principled trajectory selection, substantially
improving robustness and success rates. On OSWorld, our bBoN scaling method
establishes a new state of the art (SoTA) at 69.9%, significantly outperforming
prior methods and approaching human-level performance at 72%, with
comprehensive ablations validating key design choices. We further demonstrate
strong generalization results to different operating systems on
WindowsAgentArena and AndroidWorld. Crucially, our results highlight the
unreasonable effectiveness of scaling CUAs, when you do it right: effective
scaling requires structured trajectory understanding and selection, and bBoN
provides a practical framework to achieve this.