CocoaBench: Evaluación de Agentes Digitales Unificados en Entornos Reales

Resumen

Los agentes de LLM actualmente demuestran un alto rendimiento en ingeniería de software, investigación profunda, automatización de interfaces gráficas y diversas otras aplicaciones, mientras que los recientes modelos y arquitecturas de agentes integran cada vez más estas capacidades en sistemas unificados. Sin embargo, la mayoría de las evaluaciones aún prueban estas capacidades de forma aislada, lo que deja un vacío para casos de uso más diversos que requieren que los agentes combinen diferentes habilidades. Presentamos CocoaBench, un benchmark para agentes digitales unificados construido a partir de tareas de largo horizonte diseñadas por humanos que requieren una composición flexible de visión, búsqueda y codificación. Las tareas se especifican únicamente mediante una instrucción y una función de evaluación automática sobre el resultado final, permitiendo una evaluación confiable y escalable en diversas infraestructuras de agentes. También presentamos CocoaAgent, una arquitectura compartida ligera para comparaciones controladas entre diferentes modelos base. Los experimentos muestran que los agentes actuales aún están lejos de ser confiables en CocoaBench, con el mejor sistema evaluado alcanzando solo un 45.1% de tasa de éxito. Nuestro análisis señala además un margen sustancial de mejora en razonamiento y planificación, uso de herramientas y ejecución, y fundamentación visual.

English

LLM agents now perform strongly in software engineering, deep research, GUI automation, and various other applications, while recent agent scaffolds and models are increasingly integrating these capabilities into unified systems. Yet, most evaluations still test these capabilities in isolation, which leaves a gap for more diverse use cases that require agents to combine different capabilities. We introduce CocoaBench, a benchmark for unified digital agents built from human-designed, long-horizon tasks that require flexible composition of vision, search, and coding. Tasks are specified only by an instruction and an automatic evaluation function over the final output, enabling reliable and scalable evaluation across diverse agent infrastructures. We also present CocoaAgent, a lightweight shared scaffold for controlled comparison across model backbones. Experiments show that current agents remain far from reliable on CocoaBench, with the best evaluated system achieving only 45.1% success rate. Our analysis further points to substantial room for improvement in reasoning and planning, tool use and execution, and visual grounding.

CocoaBench: Evaluación de Agentes Digitales Unificados en Entornos Reales

CocoaBench: Evaluating Unified Digital Agents in the Wild

Resumen

Support