CocoaBench: Avaliação de Agentes Digitais Unificados em Ambiente Real

Resumo

Os agentes de LLM atualmente apresentam desempenho robusto em engenharia de software, pesquisa aprofundada, automação de interface gráfica e várias outras aplicações, enquanto arcabouços e modelos de agentes recentes integram cada vez mais essas capacidades em sistemas unificados. No entanto, a maioria das avaliações ainda testa essas capacidades de forma isolada, o que deixa uma lacuna para casos de uso mais diversificados que exigem que os agentes combinem diferentes habilidades. Apresentamos o CocoaBench, um benchmark para agentes digitais unificados, construído a partir de tarefas de longo horizonte projetadas por humanos que exigem a composição flexível de visão, pesquisa e codificação. As tarefas são especificadas apenas por uma instrução e uma função de avaliação automática sobre a saída final, permitindo uma avaliação confiável e escalável em diversas infraestruturas de agentes. Também apresentamos o CocoaAgent, um arcabouço compartilhado leve para comparação controlada entre modelos base. Experimentos mostram que os agentes atuais ainda estão longe de serem confiáveis no CocoaBench, com o melhor sistema avaliado alcançando apenas 45,1% de taxa de sucesso. Nossa análise aponta ainda para uma margem substancial de melhoria no raciocínio e planejamento, no uso e execução de ferramentas e na fundamentação visual.

English

LLM agents now perform strongly in software engineering, deep research, GUI automation, and various other applications, while recent agent scaffolds and models are increasingly integrating these capabilities into unified systems. Yet, most evaluations still test these capabilities in isolation, which leaves a gap for more diverse use cases that require agents to combine different capabilities. We introduce CocoaBench, a benchmark for unified digital agents built from human-designed, long-horizon tasks that require flexible composition of vision, search, and coding. Tasks are specified only by an instruction and an automatic evaluation function over the final output, enabling reliable and scalable evaluation across diverse agent infrastructures. We also present CocoaAgent, a lightweight shared scaffold for controlled comparison across model backbones. Experiments show that current agents remain far from reliable on CocoaBench, with the best evaluated system achieving only 45.1% success rate. Our analysis further points to substantial room for improvement in reasoning and planning, tool use and execution, and visual grounding.

CocoaBench: Avaliação de Agentes Digitais Unificados em Ambiente Real

CocoaBench: Evaluating Unified Digital Agents in the Wild

Resumo

Support