A Eficácia Irracional da Escalonagem de Agentes para Uso em Computadores

Resumo

Agentes de uso computacional (CUAs) mostram potencial para automatizar tarefas digitais cotidianas, mas sua falta de confiabilidade e alta variabilidade dificultam sua aplicação em tarefas complexas de longo prazo. Apresentamos o Behavior Best-of-N (bBoN), um método que escala a atuação de agentes ao gerar múltiplas execuções e selecionar entre elas usando narrativas comportamentais que descrevem as execuções dos agentes. Isso permite tanto uma ampla exploração quanto uma seleção de trajetórias fundamentada, melhorando substancialmente a robustez e as taxas de sucesso. No OSWorld, nosso método de escalonamento bBoN estabelece um novo estado da arte (SoTA) com 69,9%, superando significativamente métodos anteriores e se aproximando do desempenho humano em 72%, com análises abrangentes validando escolhas-chave de design. Além disso, demonstramos resultados fortes de generalização para diferentes sistemas operacionais no WindowsAgentArena e no AndroidWorld. Crucialmente, nossos resultados destacam a eficácia surpreendente de escalonar CUAs quando feito corretamente: o escalonamento eficaz requer uma compreensão e seleção estruturada de trajetórias, e o bBoN fornece uma estrutura prática para alcançar isso.

English

Computer-use agents (CUAs) hold promise for automating everyday digital tasks, but their unreliability and high variance hinder their application to long-horizon, complex tasks. We introduce Behavior Best-of-N (bBoN), a method that scales over agents by generating multiple rollouts and selecting among them using behavior narratives that describe the agents' rollouts. It enables both wide exploration and principled trajectory selection, substantially improving robustness and success rates. On OSWorld, our bBoN scaling method establishes a new state of the art (SoTA) at 69.9%, significantly outperforming prior methods and approaching human-level performance at 72%, with comprehensive ablations validating key design choices. We further demonstrate strong generalization results to different operating systems on WindowsAgentArena and AndroidWorld. Crucially, our results highlight the unreasonable effectiveness of scaling CUAs, when you do it right: effective scaling requires structured trajectory understanding and selection, and bBoN provides a practical framework to achieve this.

A Eficácia Irracional da Escalonagem de Agentes para Uso em Computadores

The Unreasonable Effectiveness of Scaling Agents for Computer Use

Resumo

Support